J'ai un problème de classification avec environ 1000 échantillons positifs et 10000 négatifs dans l'ensemble de formation. Cet ensemble de données est donc assez déséquilibré. La forêt aléatoire simple tente simplement de marquer tous les échantillons de test comme une classe majoritaire.
Voici quelques bonnes réponses sur le sous-échantillonnage et la forêt aléatoire pondérée: quelles sont les implications pour la formation d'un ensemble d'arbres avec des ensembles de données fortement biaisés?
Quelles méthodes de classification en plus de RF peuvent gérer le problème de la meilleure façon?