J'explore différentes méthodes de classification pour un projet sur lequel je travaille et je suis intéressé à essayer Random Forests. J'essaie de m'instruire au fur et à mesure et j'apprécierais toute aide apportée par la communauté CV.
J'ai divisé mes données en ensembles de formation / test. De l'expérimentation avec des forêts aléatoires dans R (en utilisant le package randomForest), j'ai eu des problèmes avec un taux de classification erroné élevé pour ma petite classe. J'ai lu cet article concernant les performances des forêts aléatoires sur des données déséquilibrées, et les auteurs ont présenté deux méthodes pour traiter le déséquilibre de classe lors de l'utilisation de forêts aléatoires.
1. Forêts aléatoires pondérées
2. Forêts aléatoires équilibrées
Le package R ne permet pas la pondération des classes (à partir des forums d'aide R, j'ai lu que le paramètre classwt ne fonctionne pas correctement et est planifié comme une future correction de bogue), donc je me retrouve avec l'option 2. Je suis en mesure de spécifier le nombre d'objets échantillonnés dans chaque classe pour chaque itération de la forêt aléatoire.
Je suis mal à l'aise de définir des tailles d'échantillons égales pour les forêts aléatoires, car je pense que je perdrais trop d'informations sur la classe plus large, ce qui entraînerait de mauvaises performances avec les données futures. Les taux de classification erronée lors du sous-échantillonnage de la grande classe se sont améliorés, mais je me demandais s'il y avait d'autres façons de gérer les tailles de classe déséquilibrées dans les forêts aléatoires?