J'ai des données avec quelques milliers de fonctionnalités et je souhaite effectuer une sélection récursive des fonctionnalités (RFE) pour supprimer celles qui ne sont pas informatives. Je le fais avec caret et RFE. Cependant, j'ai commencé à penser, si je veux obtenir le meilleur ajustement de régression (forêt aléatoire, par exemple), quand dois-je effectuer le réglage des paramètres ( mtry
pour RF)? Autrement dit, si je comprends bien, le caret entraîne les RF à plusieurs reprises sur différents sous-ensembles de fonctionnalités avec un mode fixe. Je suppose que l'optimum mtry
devrait être trouvé une fois la sélection des fonctionnalités terminée, mais la mtry
valeur utilisée par le curseur influencera-t-elle le sous-ensemble de fonctionnalités sélectionné? L'utilisation de caret avec low mtry
est bien sûr plus rapide.
J'espère que quelqu'un pourra m'expliquer cela.