Considérer la multicollinéarité est important dans une analyse de régression car, dans les extrema , cela dépend directement de savoir si vos coefficients sont identifiés de manière unique dans les données. Dans les cas moins graves, il peut encore jouer avec vos estimations de coefficient. de petits changements dans les données utilisées pour l'estimation peuvent entraîner des variations brutales des coefficients estimés. Celles-ci peuvent être problématiques d'un point de vue inférentiel: si deux variables sont fortement corrélées, les augmentations de l'une peuvent être compensées par des diminutions de l'autre, de sorte que l'effet combiné est de se nier. Avec plus de deux variables, l'effet peut être encore plus subtil, mais si les prédictions sont stables, cela suffit souvent pour les applications d'apprentissage automatique.
Considérez pourquoi nous régularisons dans un contexte de régression: nous devons empêcher le modèle d’être trop flexible. L'application de la quantité correcte de régularisation augmentera légèrement le biais pour une réduction plus importante de la variance. L'exemple classique consiste à ajouter des termes polynomiaux et des effets d'interaction à une régression: dans le cas dégénéré, l'équation de prédiction interpolera des points de données, mais sera probablement terrible en essayant de prédire les valeurs de points de données invisibles. La réduction de ces coefficients minimisera ou éliminera entièrement certains de ces coefficients et améliorera la généralisation.
Cependant, une forêt aléatoire pourrait avoir un paramètre de régularisation en fonction du nombre de variables échantillonnées à chaque fractionnement: vous obtiendrez de meilleurs fractionnements plus le nombre est grand mtry
(plus d'options à choisir; certaines d'entre elles sont meilleures que d'autres), mais cela aussi rend chaque arbre plus fortement corrélé les uns aux autres, atténuant quelque peu l'effet de diversification de l'estimation de plusieurs arbres au départ. Ce dilemme oblige à trouver le bon équilibre, généralement obtenu par validation croisée. De manière importante, contrairement à une analyse de régression, aucune partie du modèle de forêt aléatoire n'est affectée par des variables hautement colinéaires: même si deux variables fournissent la même pureté de nœud enfant, vous pouvez simplement en choisir un sans réduire la qualité du résultat.
De même, pour quelque chose comme un SVM, vous pouvez inclure plus de prédicteurs que de fonctionnalités, car l'astuce du noyau vous permet d'opérer uniquement sur le produit interne de ces vecteurs de fonctionnalités. Avoir plus de fonctionnalités que d'observations poserait problème dans les régressions, mais le truc du noyau signifie que nous estimons uniquement un coefficient pour chaque exemple, alors que le paramètre de régularisation réduit la flexibilité de la solution - ce qui est décidément une bonne chose, car l'estimation de paramètres pourCNNles observations effectuées sans restriction produiront toujours un modèle parfait pour les données de test - et nous arrivons au cercle suivant, dans le scénario de régression crête / LASSO / réseau élastique où la flexibilité du modèle est contrainte comme moyen de contrôle par rapport à un modèle trop optimiste. Un examen des conditions KKT du problème SVM révèle que la solution SVM est unique, nous n’avons donc pas à nous inquiéter des problèmes d’identification apparus dans le cas de la régression.
Enfin, considérons l’ impact réel de la multicolinéarité. Cela ne change pas le pouvoir prédictif du modèle (du moins sur les données d'apprentissage), mais il faille avec nos estimations de coefficients. Dans la plupart des applications ML, nous ne nous soucions pas des coefficients eux-mêmes, juste la perte de nos prédictions de modèle, donc dans ce sens, vérifier VIF ne répond pas réellement à une question conséquente. (Mais si un léger changement dans les données provoque une énorme fluctuation des coefficients [un symptôme classique de la multicolinéarité], cela peut également changer les prévisions, auquel cas nous nous en soucions - mais tout cela [nous l'espérons!] Est caractérisé lorsque effectuez une validation croisée, qui fait quand même partie du processus de modélisation.) Une régression est plus facile à interpréter, mais cette interprétation peut ne pas être l'objectif le plus important pour certaines tâches.