Pour un récent concours Kaggle, j'ai (manuellement) défini 10 fonctionnalités supplémentaires pour mon ensemble d'entraînement, qui seraient ensuite utilisées pour former un classificateur de forêts aléatoires. J'ai décidé d'exécuter PCA sur l'ensemble de données avec les nouvelles fonctionnalités, pour voir comment elles se comparaient les unes aux autres. J'ai trouvé que ~ 98% de la variance était portée par le premier composant (le premier vecteur propre). J'ai ensuite formé le classificateur plusieurs fois, en ajoutant une fonction à la fois, et j'ai utilisé la validation croisée et l'erreur RMS pour comparer la qualité de la classification. J'ai trouvé que les classifications s'amélioraient avec chaque fonctionnalité supplémentaire et que le résultat final (avec les 10 nouvelles fonctionnalités) était bien meilleur que la première exécution avec (disons) 2 fonctionnalités.
Étant donné que l'ACP a prétendu que ~ 98% de la variance concernait la première composante de mon ensemble de données, pourquoi la qualité des classifications s'est-elle tant améliorée?
Cela serait-il vrai pour les autres classificateurs? Les RF évoluent sur plusieurs cœurs, il est donc beaucoup plus rapide de s'entraîner que (disons) SVM.
Et si j'avais transformé le jeu de données dans l'espace "PCA" et exécuté le classificateur sur l'espace transformé. Comment mes résultats changeraient-ils?