La multicolinéarité est-elle vraiment un problème?

11

Je travaille sur un projet de modélisation prédictive ces jours-ci: essayer d'apprendre un modèle et faire des prédictions en temps réel sur la base du modèle que j'ai appris hors ligne.

J'ai commencé à utiliser la régression de crête récemment, car j'ai lu que la régularisation peut aider à réduire l'effet de la multicolinéarité.

Cependant, j'ai lu ce blog aujourd'hui. Je suis totalement confus maintenant. Selon ce blog, la multicolinéarité ne nuit pas autant au pouvoir prédictif d'un modèle.

Donc, au final, la multicolinéarité est-elle un problème ou non?

— user152503
source

2

c'est un problème dans certains paramètres (disons OLS), pas un problème dans d'autres paramètres (disons Arbre de décision, ou avec régularisation).

— Haitao Du

6

@ hxd1011, je dirais, pas exactement. Il est un problème si nous faisons la modélisation d' explication, mais certaines techniques sont mieux que d' autres à l' aborder (OLS contre la régression de crête). C'est moins un problème de prédiction, comme le note Rob J. Hyndman dans le billet de blog cité.

— Richard Hardy

1

C'est un problème plus important si vos prédicteurs sont mesurés avec erreur. Avec des prédicteurs parfaitement mesurés (comme des variables catégorielles sans problèmes de mesure), cela devrait être moins préoccupant.

— kjetil b halvorsen

1

La micronumérosité est le vrai problème.

— Le Laconic

13

C'est un problème pour l'inférence causale - ou plutôt, cela indique des difficultés dans l'inférence causale - mais ce n'est pas un problème particulier pour la prédiction / prévision (à moins qu'il ne soit si extrême qu'il empêche la convergence du modèle ou entraîne des matrices singulières, et alors vous n'obtiendrez pas prédictions de toute façon). C'est aussi, je pense, le sens de ce billet de blog. Il semble que vous insistiez sur une réponse oui ou non lorsque la réponse est que cela dépend. Voici de quoi cela dépend et pourquoi on peut au moins dire que la multicolinéarité (non parfaite) n'est jamais une raison pour supprimer une variable d'un modèle - tous les problèmes que la multicolinéarité indique ne disparaîtront pas parce que vous avez supprimé une variable et arrêté voir la colinéarité.

Les prédicteurs qui sont fortement corrélés entre eux ne font tout simplement pas un aussi bon travail d'amélioration de vos prédictions qu'ils le feraient s'ils n'étaient pas colinéaires, mais toujours corrélés séparément avec la variable de résultat; ni l'un ni l'autre ne fait beaucoup plus de travail que l'autre ne le fait déjà et le ferait de toute façon. Peut-être qu'ils sont si fortement liés les uns aux autres parce qu'ils capturent essentiellement la même construction sous-jacente, auquel cas aucun des deux n'ajoute beaucoup plus les uns aux autres pour une bonne raison, et il serait impossible de les séparer ontologiquement pour des raisons prédictives de toute façon, en manipulant les unités d'observation pour avoir des valeurs différentes sur chacune des deux variables prédictives afin qu'elles fonctionnent mieux comme prédicteurs. Mais cela ne signifie pas qu'inclure les deux dans votre modèle tel quel est mauvais ou mauvais.

Quand il s'agit d'inférence causale, c'est un problème simplement parce qu'il nous empêche de pouvoir dire, en toute confiance au moins, lequel des prédicteurs colinéaires fait la prédiction, et donc l'explication et, vraisemblablement, la cause. Avec suffisamment d'observations, vous pourrez éventuellement identifier les effets séparés de variables même très colinéaires (mais jamais parfaitement colinéaires). C'est pourquoi Rob Franzese et UMich aiment appeler la multicolinéarité «micronumérosité». Il y a toujours une certaine colinéarité entre les prédicteurs. C'est l'une des raisons pour lesquelles nous avons généralement besoin de beaucoup d'observations. Parfois un montant impossible, pour nos besoins d'inférence causale. Mais le problème est la complexité du monde et les circonstances malheureuses qui nous empêchent d'observer une plus grande variété de situations où différents facteurs varient davantage les uns par rapport aux autres. La multicolinéarité est le symptôme de ce manque de données utiles, et la régression multivariée est le remède (imparfait). Pourtant, beaucoup de gens semblent penser que la multicolinéarité est quelque chose qu'ils font de mal avec leur modèle, et comme si c'était une raison de douter de leurs découvertes.

— ECS
source

8

Ce n'est pas un problème pour la modélisation prédictive quand vous ne vous souciez que des prévisions et rien d'autre.

Considérez ce modèle simple:

y = β + β_{x} x + β_{z} z + ε

$y=\beta+\beta_xx+\beta_zz+\varepsilon$ Supposer que

z = α x

$z=\alpha x$

Nous avons des régresseurs parfaitement colinéaires, et une solution OLS typique n'existera pas car $(X^TX)^{-1}$ a une singularité.

Cependant, connectons une équation à une autre:

y = β + β_{x} x + β_{z} α x + ε = β + β_{2} x + ε,

$y=\beta+\beta_xx+\beta_z\alpha x+\varepsilon= \beta+\beta_2 x+\varepsilon,$ où

β_{2} \equiv β_{x} + β_{z} α

$\beta_2\equiv \beta_x+\beta_z\alpha$

Donc, clairement, nous pouvons estimer $\hat\beta_2$ par les méthodes OLS habituelles, c'est-à-dire qu'il existe une solution. Le seul problème c'est que ce n'est pas unique!

Nous pouvons choisir $\hat\beta_z$ , ce qui nous donnerait $\hat\beta_x=\beta_2-\alpha\hat\beta_x$ : nous avons un nombre infini de paires $(\hat\beta_x,\hat\beta_z)$ qui correspondent à une solution unique $\hat\beta_2$ . De toute évidence, l'une de ces paires est aussi bonne que toute autre pour la prédiction de $\hat y$ . De plus, toutes ces paires sont aussi bonnes que l'unique $\hat\beta_2$ coefficient aux fins de prévision .

Le seul problème est l'inférence. Si vous voulez savoir comment $x$ impacts $y$ votre analyse typique de $\hat\beta_x$ le coefficient et sa variance seront inutiles.

— Aksakal
source

2

La multicollinéarité n'est généralement pas le meilleur scénario pour l'analyse de régression. Notre vie serait beaucoup plus facile si tous les prédicteurs étaient orthogonaux.

C'est un problème pour l'interprétation du modèle (essayer de comprendre les données):

La multicollinéarité affecte la variance des estimateurs de coefficient, et donc la précision d'estimation.
Ainsi, il serait plus difficile de rejeter une hypothèse nulle (en raison des erreurs standard plus élevées). Nous avons un problème d'erreur de type II.
L'ajout ou la suppression de quelques échantillons seulement peut modifier considérablement les coefficients estimés
Les signes du coefficient estimé peuvent être à l'opposé de ceux attendus.

Imaginez si vous devez écrire un rapport à votre patron sur vos données. Vous créez un modèle de multicolinéarité presque parfait et parlez de votre modèle à votre patron. Vous pourriez dire " mon premier prédicteur est positivement corrélé avec la réponse ... Je vais vous en dire plus pourquoi . Votre patron est content, mais vous demande de réessayer sans quelques points de données. Vos coefficients dans votre nouveau modèle est maintenant ... très différent , le coefficient de votre premier prédicteur est désormais négatif! Votre patron ne vous fera plus confiance! Votre modèle n'est pas robuste.

La multicollinéarité est toujours un problème pour la puissance prédictive. Votre modèle s'adaptera et sera moins susceptible de se généraliser aux données hors échantillon. Heureusement, votre $R^2$ ne sera pas affecté et vos coefficients seront toujours non biaisés.

— Bonjour le monde
source

0

Je dirais que si la corrélation entre une variable et une autre variable (ou une combinaison linéaire de variables) change entre les données dans l'échantillon et les données hors échantillon, vous pouvez commencer à voir la multicolinéarité affectant la précision des données hors échantillon prévisions. La multicolinéarité ajoute simplement une autre hypothèse (corrélation cohérente) qui doit être raisonnablement satisfaite pour que votre modèle continue de bien fonctionner.

— Chris
source

Bonne réponse (partielle). Je ne pense pas que cela mérite des votes négatifs.

— capybaralet