J'applique un algorithme de forêt aléatoire en tant que classificateur sur un ensemble de données de microréseaux qui sont divisés en deux groupes connus avec des milliers de fonctionnalités. Après l'exécution initiale, je regarde l'importance des fonctionnalités et réexécute l'algorithme d'arbre avec les fonctionnalités les plus importantes 5, 10 et 20. Je trouve que pour toutes les fonctionnalités, top 10 et 20, l'estimation OOB du taux d'erreur est de 1,19% alors que pour les 5 meilleures fonctionnalités, elle est de 0%. Cela me semble contre-intuitif, donc je me demandais si vous pouviez expliquer si je manque quelque chose ou si j'utilise la mauvaise métrique.
J'utilise le package randomForest dans R avec ntree = 1000, nodesize = 1 et mtry = sqrt (n)