Malgré les approches ressemblantes et d'autres augmentations de la variabilité des données, la forêt aléatoire "en tant qu'algorithme" peut-elle être considérée comme une bonne option pour la classification des données déséquilibrées?
Malgré les approches ressemblantes et d'autres augmentations de la variabilité des données, la forêt aléatoire "en tant qu'algorithme" peut-elle être considérée comme une bonne option pour la classification des données déséquilibrées?
Réponses:
Ce n'est pas une bonne option.
Les forêts aléatoires sont construites sur des arbres de décision et les arbres de décision sont sensibles au déséquilibre des classes . Chaque arbre est construit sur un sac, et chaque sac est un échantillon aléatoire uniforme à partir des données (avec remplacement). Par conséquent, chaque arbre sera biaisé dans la même direction et la même ampleur (en moyenne) par déséquilibre de classe.
Il existe plusieurs techniques pour réduire ou atténuer le déséquilibre des classes, dont certaines sont générales et d'autres spécifiques aux forêts aléatoires. Ce sujet a été longuement discuté ici et ailleurs.
edit: J'ajouterais que je ne pense pas que ce soit dramatiquement pire que toute autre option, par exemple la régression logistique, bien que je n'en ai aucune preuve
Les classes déséquilibrées ne sont un problème que si vous avez également un déséquilibre des coûts de mauvaise classification. S'il existe de petites classes minoritaires et qu'il n'est pas plus coûteux de les classer en classe majoritaire que l'inverse, alors la chose rationnelle à faire est de permettre une mauvaise classification des classes minoritaires.
Supposons donc que vous ayez un déséquilibre de classe et de coût. Il existe plusieurs façons de gérer cela. Le livre de Max Kuhn "Modélisation prédictive appliquée" a une bonne vue d'ensemble au chapitre 16. Ces remèdes incluent l'utilisation d'un seuil autre que 0,5 qui reflète les coûts inégaux. Ceci est facile à faire dans la classification binaire tant que votre classificateur génère des probabilités d'étiquette (les arbres et les forêts le font). Je ne l'ai pas encore étudié pour plusieurs classes. Vous pouvez également suréchantillonner la classe minoritaire pour lui donner plus de poids.