Les problèmes de déséquilibre de classe peuvent être résolus avec un apprentissage sensible au coût ou un rééchantillonnage. Découvrez les avantages et les inconvénients de l'apprentissage sensible au coût par rapport à l'échantillonnage coproduit ci-dessous:
{1} donne une liste des avantages et des inconvénients de l'apprentissage sensible au coût par rapport à l'échantillonnage:
2.2 Échantillonnage
Le suréchantillonnage et le sous-échantillonnage peuvent être utilisés pour modifier la répartition par classe des données d'apprentissage et les deux méthodes ont été utilisées pour traiter le déséquilibre des classes [1, 2, 3, 6, 10, 11]. La modification de la répartition par classe des données de formation facilite l'apprentissage avec des ensembles de données très asymétriques, car elle impose des coûts de classification erronés non uniformes. Par exemple, si l’on modifie la répartition par classe de l’ensemble d’entraînement de sorte que le rapport des exemples positifs aux exemples négatifs passe de 1: 1 à 2: 1, le rapport des coûts de classification erronée est alors de 2: 1. Cette équivalence entre la modification de la répartition par classe des données d'apprentissage et celle du rapport coût / erreur de classification est bien connue et a été officiellement décrite par Elkan [9].
Il existe des inconvénients connus liés à l'utilisation de l'échantillonnage pour mettre en œuvre un apprentissage sensible aux coûts. L'
inconvénient du sous-échantillonnage est qu'il supprime des données potentiellement utiles . De notre point de vue, le principal inconvénient du suréchantillonnage réside dans le fait qu’en créant des copies exactes des exemples existants, il est probable qu’un surapprentissage sera possible . En fait, avec le suréchantillonnage, il est assez courant pour un apprenant de générer une règle de classification couvrant un seul exemple, répliqué. Le deuxième inconvénient du suréchantillonnage est qu’il augmente le nombre d’exemples de formation, augmentant ainsi le temps d’apprentissage .
2.3 Pourquoi utiliser l'échantillonnage?
Compte tenu des inconvénients de l’échantillonnage, il convient de se demander pourquoi on l’utiliserait plutôt qu’un algorithme d’apprentissage sensible au coût pour traiter des données avec une répartition de classe asymétrique et des coûts de classification erronée non uniformes. Il y a plusieurs raisons à cela. La raison la plus évidente est qu’il n’ya pas d’implémentation sensible au coût de tous les algorithmes d’apprentissage et qu’une approche basée sur l’encapsulation utilisant l’échantillonnage est donc la seule option. Bien que cela soit certainement moins vrai aujourd'hui que par le passé, de nombreux algorithmes d'apprentissage (par exemple, C4.5) ne gèrent toujours pas directement les coûts dans le processus d'apprentissage.
Une deuxième raison d'utiliser l'échantillonnage est que beaucoup de jeux de données fortement asymétriques sont énormes et que la taille de l'ensemble de formation doit être réduite pour que l'apprentissage soit réalisable. Dans ce cas, le sous-échantillonnage semble être une stratégie raisonnable et valide. Dans cet article, nous ne considérons pas la nécessité de réduire la taille de l'ensemble de formation. Nous vous ferons toutefois remarquer que, si certaines données de formation doivent être ignorées, il peut être utile de supprimer certains exemples de la majorité des classes afin de réduire la taille de l'ensemble de formation à la taille requise, puis de recourir également à une méthode de gestion des coûts. algorithme d'apprentissage sensible, de sorte que la quantité de données d'apprentissage rejetées soit minimisée.
Une dernière raison qui a peut-être contribué à l'utilisation de l'échantillonnage plutôt qu'à un algorithme d'apprentissage sensible au coût est que les coûts d'une mauvaise classification sont souvent inconnus. Cependant, ce n'est pas une raison valable pour utiliser l'échantillonnage sur un algorithme d'apprentissage sensible au coût, car le problème analogue se pose avec l'échantillonnage: quelle devrait être la distribution par classe des données d'apprentissage finales? Si ces informations sur les coûts ne sont pas connues, une mesure telle que l'aire sous la courbe ROC pourrait être utilisée pour mesurer les performances du classifieur et les deux approches pourraient alors déterminer de manière empirique le rapport coûts / classes approprié.
Ils ont également effectué une série d'expériences qui n'ont pas été concluantes:
Sur la base des résultats de tous les ensembles de données, il n'y a pas de gagnant définitif entre l'apprentissage sensible au coût, le suréchantillonnage et le sous-échantillonnage
Ils essaient ensuite de comprendre quels critères des jeux de données peuvent indiquer quelle technique convient le mieux.
Ils remarquent également que SMOTE peut apporter certaines améliorations:
Les gens ont apporté diverses améliorations pour améliorer l'efficacité de l'échantillonnage. Certaines de ces améliorations incluent l'introduction de nouveaux exemples «synthétiques» lors du suréchantillonnage [5 -> SMOTE], la suppression des exemples moins utiles de la classe majoritaire lorsque le sous-échantillonnage est utilisé [11] et l'utilisation de plusieurs sous-échantillons lors de la sous-échantillonnage, chaque exemple étant utilisé dans au moins un exemple. sous-échantillon [3]. Bien que ces techniques aient été comparées au suréchantillonnage et au sous-échantillonnage, elles ne l'ont généralement pas été à des algorithmes d'apprentissage sensibles au coût. Cela mériterait d'être étudié à l'avenir.
{1} Weiss, Gary M., Kate McCarthy et Bibi Zabar. "Apprentissage sensible aux coûts par rapport à l'échantillonnage: quel est le meilleur moyen de gérer des classes non équilibrées avec des coûts d'erreur inégaux?" DMIN 7 (2007): 35-41. https://scholar.google.com/scholar?cluster=10779872536070567255&hl=fr&as_sdt=0,22 ; https://pdfs.semanticscholar.org/9908/404807bf6b63e05e5345f02bcb23cc739ebd.pdf