Faut-il se préoccuper de la multi-colinéarité lors de l'utilisation de modèles non linéaires?

13

Supposons que nous ayons un problème de classification binaire avec des fonctionnalités principalement catégorielles. Nous utilisons un modèle non linéaire (par exemple XGBoost ou Random Forests) pour l'apprendre.

Faut-il encore se préoccuper de la multi-colinéarité? Pourquoi?
Si la réponse à ce qui précède est vraie, comment la combattre si l'on utilise ces types de modèles non linéaires?

— Josh
source

7

La multi-colinéarité ne sera pas un problème pour certains modèles. Comme une forêt aléatoire ou un arbre de décision. Par exemple, si nous avons deux colonnes identiques, l'arbre de décision / forêt aléatoire "déposera" automatiquement une colonne à chaque division. Et le modèle fonctionnera toujours bien.

De plus, la régularisation est un moyen de "corriger" le problème de multi-colinéarité. Ma réponse Méthodes de régularisation pour la régression logistique donne des détails.

— Haitao Du
source

5

Je pense que cela serait amélioré si vous expliquiez exactement quel est le problème «résolu» par la régularisation.

— Matthew Drury

2

Tard dans la soirée, mais voici ma réponse quand même, et c'est "Oui", il faut toujours se soucier de la colinéarité, que le modèle / méthode soit linéaire ou non, ou que la tâche principale soit la prédiction ou la classification.

Supposons un certain nombre de covariables / caractéristiques linéairement corrélées présentes dans l'ensemble de données et la forêt aléatoire comme méthode. De toute évidence, la sélection aléatoire par nœud peut choisir uniquement (ou principalement) des caractéristiques colinéaires qui peuvent / entraîneront une mauvaise répartition, et cela peut se produire à plusieurs reprises, affectant ainsi négativement les performances.

Désormais, les entités colinéaires peuvent être moins informatives du résultat que les autres entités (non colinéaires) et, en tant que telles, elles devraient de toute façon être prises en compte pour être éliminées de l'ensemble des entités. Cependant, supposez que les caractéristiques soient classées en haut de la liste des «caractéristiques importantes» produite par RF. En tant que tels, ils seraient conservés dans l'ensemble de données, augmentant inutilement la dimensionnalité. Donc, dans la pratique, je vérifierais toujours, en tant qu'étape exploratoire (parmi de nombreuses autres), l'association par paire des caractéristiques, y compris la corrélation linéaire.

— dnqxt
source

Je crois qu'il y a des cas où la multi-colinéarité peut être ignorée en toute sécurité, certains des cas sont discutés ici: statisticshorizons.com/multicollinearity

— Dr Nisha Arora

0

Faut-il encore se préoccuper de la multi-colinéarité? Pourquoi?

Si le modèle non linéaire est un modèle arborescent, vous ne devriez pas le considérer comme sérieux. Un modèle d'arbre différent aura une méthode de transaction différente, telle que la forêt aléatoire les gardera tous les deux (car ils construisent l'arbre indépendamment et sélectionnent au hasard la fonctionnalité pour chaque arbre), mais cela n'a aucun effet sur les performances de prédiction, même si vous supprimez le redondant. Mais pour xgboost, il choisira n'importe lequel d'entre eux et l'utilisera jusqu'à la dernière construction de l'arbre.

Si la réponse à ce qui précède est vraie, comment la combattre si l'on utilise ces types de modèles non linéaires?

Il s'agit simplement de la signification de l'interprétation, il est donc suggéré de supprimer la variable hautement corrélée.

— Wolfe
source

-3

La multi-colinéarité est toujours un problème possible. Les variables qui sont des prédicteurs dans le modèle affecteront la prédiction lorsqu'elles sont liées linéairement (c'est-à-dire lorsqu'une colinéarité est présente).

— Michael R. Chernick
source

1

Merci, si (1) l'accent est mis sur les performances de prédiction (et non sur l'interprétabilité) et (2) le modèle n'est pas linéaire, cela vous dérangerait-il d'expliquer pourquoi cela peut toujours être un problème? (et comment cela se manifesterait-il exactement?)

— Josh

Ces variables qui sont des prédicteurs dans le modèle affecteront la prédiction lorsqu'elles sont liées linéairement (c'est-à-dire que la colinéarité est présente).

— Michael R. Chernick

1

Affectez la prédiction comment, exactement? BTW, stats.stackexchange.com/a/138082/99274 , mettez des liens dans votre réponse ou affrontez la colère de la foule "été là, fait ça".

— Carl

7

Étant donné que la classification est si étroitement liée à la prédiction et que la prédiction a tendance à ne pas souffrir de multicollinéarité, il est important de soutenir votre affirmation selon laquelle c'est toujours un "problème possible", en particulier pour les modèles particuliers mentionnés dans la question. Quelle serait la nature du problème pour la classification et pourquoi?

— whuber

12

Je suis presque sûr que vous posez la question. Whuber a demandé pourquoi la prédiction souffre de multicollinéarité, et vous avez essentiellement répondu "La prédiction souffre de multicollinéarité parce que la prédiction souffre de multicollinéarité."

— Matthew Drury