Tout est dans le titre, est-il judicieux d'utiliser la sélection des fonctionnalités avant d'utiliser la forêt aléatoire?
Tout est dans le titre, est-il judicieux d'utiliser la sélection des fonctionnalités avant d'utiliser la forêt aléatoire?
Réponses:
Oui, et c'est assez courant. Si vous attendez plus de ~ 50% de vos fonctionnalités, elles ne sont même pas redondantes mais totalement inutiles. Par exemple, le paquet randomForest a la fonction wrapper rfcv () qui pré-formera randomForest et omettra les variables les moins importantes. la fonction rfcv se réfère à ce chapitre . N'oubliez pas d'intégrer la sélection et la modélisation des fonctionnalités dans une boucle de validation croisée externe pour éviter des résultats trop optimistes.
[modifier ci-dessous]
Je pourrais modérer "tout à fait inutile". Une seule forêt aléatoire ne sera le plus souvent pas comme par exemple la régression avec régularisation au lasso ignorera complètement les caractéristiques, même si celles-ci (avec le recul simulé) étaient des caractéristiques aléatoires. Les divisions d'arbre de décision par entités sont choisies par des critères locaux dans l'un des milliers ou des millions de nœuds et ne peuvent pas être annulées ultérieurement. Je ne préconise pas de réduire les caractéristiques à une sélection supérieure, mais il est possible pour certains ensembles de données d'obtenir une augmentation substantielle des performances de prédiction (estimée par une validation croisée externe répétée ) en utilisant cette sélection de variables. Une conclusion typique serait que garder 100% des fonctionnalités ou seulement quelques pour cent fonctionne moins bien, et il peut alors y avoir une large plage moyenne avec des performances de prédiction estimées similaires.
Peut-être une règle de pouce raisonnable: quand on s'attend à ce que la régularisation de type lasso serve mieux qu'une régularisation de type crête pour un problème donné, alors on pourrait essayer de pré-former une forêt aléatoire et classer les caractéristiques par l' intérieur du sac cross-validated variable importance et essayez de supprimer certaines des caractéristiques les moins importantes . L'importance variable quantifie dans quelle mesure la prédiction du modèle à validation croisée diminue, lorsqu'une caractéristique donnée est permutée (valeurs mélangées) après l'entraînement, avant la prédiction. On ne sera jamais certain si une fonctionnalité spécifique doit être incluse ou non, mais il est probablement beaucoup plus facile de prédire par les 5% des meilleures fonctionnalités que les 5% les plus bas.
D'un point de vue pratique, le temps d'exécution de calcul pourrait être réduit, et peut-être certaines ressources pourraient être économisées, s'il y a un coût d'acquisition fixe par fonctionnalité.