Le raisonnement intuitif a été expliqué dans le blogpost:
Si notre objectif est la prédiction, cela entraînera un biais certain. Et pire encore, ce sera un biais permanent, dans le sens où nous n'aurons pas d'estimations cohérentes à mesure que la taille de l'échantillon augmente.
Donc, sans doute le problème des données (artificiellement) équilibrées est pire que le cas déséquilibré.
Les données équilibrées sont bonnes pour la classification, mais vous perdez évidemment des informations sur les fréquences d'apparition, ce qui va affecter les mesures de précision elles-mêmes, ainsi que les performances de production.
Disons que vous reconnaissez des lettres manuscrites de l'alphabet anglais (26 lettres). Surbalancer l'apparence de chaque lettre donnera à chaque lettre une probabilité d'être classée (correctement ou non) à peu près 1/26, donc le classificateur oubliera la distribution réelle des lettres dans l'échantillon d'origine. Et c'est ok quand le classificateur est capable de généraliser et de reconnaître chaque lettre avec une grande précision .
Mais si la précision et surtout la généralisation ne sont pas "si élevées" (je ne peux pas vous donner de définition - vous pouvez les considérer comme un "pire des cas") - les points mal classés seront très probablement répartis également entre toutes les lettres , quelque chose comme:
"A" was misclassified 10 times
"B" was misclassified 10 times
"C" was misclassified 11 times
"D" was misclassified 10 times
...and so on
Par opposition à sans équilibrage (en supposant que "A" et "C" ont des probabilités d'apparition beaucoup plus élevées dans le texte)
"A" was misclassified 3 times
"B" was misclassified 14 times
"C" was misclassified 3 times
"D" was misclassified 14 times
...and so on
Ainsi, les cas fréquents obtiendront moins d'erreurs de classification. Que ce soit bon ou non dépend de votre tâche. Pour la reconnaissance de texte naturel, on pourrait soutenir que les lettres avec des fréquences plus élevées sont plus viables, car elles préserveraient la sémantique du texte original, rapprochant la tâche de reconnaissance de la prédiction (où la sémantique représente les tendances ). Mais si vous essayez de reconnaître quelque chose comme une capture d'écran de la clé ECDSA (plus d'entropie -> moins de prédiction) - garder les données déséquilibrées n'aiderait pas. Donc, encore une fois, cela dépend.
La distinction la plus importante est que l'estimation de la précision est elle-même biaisée (comme vous pouvez le voir dans l'exemple de l'alphabet équilibré), de sorte que vous ne savez pas comment le comportement du modèle est affecté par les points les plus rares ou les plus fréquents.
PS Vous pouvez toujours suivre les performances d'une classification déséquilibrée avec des mesures de précision / rappel d' abord et décider si vous devez ajouter un équilibrage ou non.
EDIT : Il existe une confusion supplémentaire qui réside dans la théorie de l'estimation précisément dans la différence entre la moyenne de l'échantillon et la moyenne de la population. Par exemple, vous connaissez peut-être (sans doute) la distribution réelle des lettres anglaises dans l'alphabet , mais votre échantillon (ensemble de formation) n'est pas assez grand pour l'estimer correctement (avec ). Ainsi, afin de compenser un , il est parfois recommandé de rééquilibrer les classes en fonction de la population elle-même ou des paramètres connus d'un échantillon plus large.p ( xje| θ)p ( xje| θ^)θ i - θ iθ^je- θje(donc meilleur estimateur). Cependant, dans la pratique, il n'y a aucune garantie que "un plus grand échantillon" soit distribué de manière identique en raison du risque d'obtenir des données biaisées à chaque étape (disons les lettres anglaises collectées dans la littérature technique vs fiction vs la bibliothèque entière), de sorte que l'équilibrage pourrait toujours être nuisible.
Cette réponse devrait également clarifier les critères d'applicabilité de l'équilibrage:
Le problème du déséquilibre des classes est dû au fait qu'il n'y a pas suffisamment de schémas appartenant à la classe minoritaire, et non au rapport des schémas positifs et négatifs en soi. Généralement, si vous avez suffisamment de données, le «problème de déséquilibre de classe» ne se pose pas
En conclusion, l'équilibrage artificiel est rarement utile si l'ensemble d'entraînement est suffisamment grand. L'absence de données statistiques provenant d'un plus grand échantillon distribué de manière identique ne suggère également aucun besoin d'équilibrage artificiel (en particulier pour la prédiction), sinon la qualité de l'estimateur est aussi bonne que la «probabilité de rencontrer un dinosaure»:
Quelle est la probabilité de rencontrer un dinosaure dans la rue?
1/2 vous rencontrez un dinosaure ou vous ne rencontrez pas de dinosaure