À mon sens, les variables hautement corrélées ne causeront pas de problèmes de multi-colinéarité dans un modèle de forêt aléatoire (corrigez-moi si je me trompe). Toutefois, si j’ai trop de variables contenant des informations similaires, le modèle pèsera-t-il trop sur cet ensemble plutôt que sur les autres?
Par exemple, il existe deux ensembles d’informations (A, B) avec le même pouvoir prédictif. Variable , , ... contiennent toutes les informations A et seul Y contient les informations B. Lorsque les variables d'échantillonnage aléatoires poussent, la plupart des arbres poussent sur les informations A et, par conséquent, les informations B ne sont pas complètes. capturé?
multicollinearity
qu’il n’avait AUCUN effet sur le modèle de forêt aléatoire. Par exemple, ici , la réponse la plus votée indique qu '"aucune partie du modèle de forêt aléatoire n'est endommagée par des variables hautement colinéaires". Cela at-il une validité?