Y a-t-il une explication intuitive à la multicolinéarité qui pose problème en régression linéaire?


85

Le wiki aborde les problèmes qui se posent lorsque la multicollinéarité est un problème en régression linéaire. Le problème fondamental est que la multicolinéarité aboutit à des estimations de paramètres instables, ce qui rend très difficile l'évaluation de l'effet des variables indépendantes sur les variables dépendantes.

Je comprends les raisons techniques derrière les problèmes (peut-être impossible d'inverser , mal conditionné etc.), mais je cherche une explication plus intuitive (peut-être géométrique?) De ce problème.XXXX

Existe-t-il une explication géométrique ou peut-être une autre forme d'explication aisément compréhensible expliquant pourquoi la multicolinéarité est problématique dans le contexte de la régression linéaire?


4
Vraiment bonne question. La meilleure façon de comprendre quelque chose est d'utiliser plusieurs explications.
Tal Galili

1
Voir aussi question connexe et explication visuelle stats.stackexchange.com/q/70899/3277
ttnphns

Réponses:


89

Considérons le cas le plus simple où régresse par rapport à et et où et sont fortement corrélés positivement. Ensuite , l'effet de sur est difficile à distinguer de l'effet de sur , car toute augmentation de tend à être associée à une augmentation de .YXZXZXYZYXZ

Une autre façon de voir cela est de considérer l'équation. Si nous écrivons , le coefficient est l'augmentation de pour chaque augmentation d'unité de tout en maintenant constant. Mais dans la pratique, il est souvent impossible de maintenir constant et la corrélation positive entre et signifie qu'une augmentation unitaire de est généralement accompagnée d'une certaine augmentation de en même temps.Y=b0+b1X+b2Z+eb1YXZZXZXZ

Une explication similaire, mais plus compliquée, vaut pour d'autres formes de multicolinéarité.


20
+1 Le cas extrêmement pathologique où souligne davantage. et ne pourrait pas être distingué. X=ZY=b0+b1X+b2Z+eY=b0+(b1+b2)X+0Z+e
vqv

1
+1 J'aime cette réponse, car l'une des questions d'aide les plus courantes consiste à savoir pourquoi et . L'inférence doit tenir compte d'entrées réalistes. b1>0b2<0
muratoa

29

Je mangeais des sushis une fois et je pensais que cela pourrait faire une bonne démonstration intuitive de problèmes mal conditionnés. Supposons que vous vouliez montrer à quelqu'un un avion en utilisant deux bâtons se touchant à la base.

Vous voudriez probablement tenir les bâtons orthogonaux les uns aux autres. L’effet de la moindre agitation de vos mains sur l’avion le fait osciller un peu autour de ce que vous espériez montrer aux gens, mais après vous avoir observé pendant un moment, ils ont une bonne idée de l’avion que vous vouliez montrer.

Mais disons que vous rapprochez les extrémités des bâtons et observez l'effet de vos mains tremblantes. L'avion qu'il forme va tanguer beaucoup plus sauvagement. Votre public devra regarder plus longtemps pour avoir une bonne idée de l'avion que vous essayez de montrer.


+1 Je pense que cela répond le plus directement à la question. Parce que bien que la multicolinéarité affecte l'interprétation. Pourquoi c'est un problème à mon humble avis, c'est la stabilité de l'estimation.
muratoa

+1 Pour poster ce commentaire (et seulement ce commentaire dans l'histoire de Stackoverflow) sous le nom d'utilisateur Snackrifice.
stackoverflax

19

L'approche géométrique est de considérer la projection moins carrés de sur le sous - espace engendré par .YX

Disons que vous avez un modèle:

E[Y|X]=β1X1+β2X2

Notre espace d’estimation est le plan déterminé par les vecteurs et et le problème est de trouver les coordonnées correspondant à qui décriront le vecteur , une projection des moindres carrés de sur ce plan.X1X2(β1,β2)Y^Y

Supposons maintenant que , c'est-à-dire qu'ils soient colinéaires. Ensuite, le sous-espace déterminé par et n'est qu'une ligne et nous n'avons qu'un degré de liberté. Nous ne pouvons donc pas déterminer deux valeurs et comme on nous l'a demandé.X1=2X2X1X2β1β2


2
J'ai voté il y a longtemps, mais relire votre réponse me rappelle que j'ai toujours aimé Réponses Plane à des questions complexes de Christensen ( j.mp/atRp9w ).
chl

@chl: cool, allez certainement y jeter un coup d'œil. :)
ars

14

Deux personnes poussent un rocher en haut d'une colline. Vous voulez savoir à quel point chacun d'eux pousse. Supposons que vous les regardiez se serrer les coudes pendant dix minutes et que le rocher bouge de 10 pieds. Est-ce que le premier gars a fait tout le travail et le second l'a simulé? Ou vice versa? Ou 50-50? Étant donné que les deux forces travaillent exactement au même moment, vous ne pouvez séparer la force de l'une ou de l'autre séparément. Tout ce que vous pouvez dire, c'est que leur force combinée est de 1 pied par minute.

Maintenant, imaginons que le premier joueur pousse lui-même une minute, puis neuf minutes avec le second, et une dernière minute n’est que le second. Vous pouvez maintenant utiliser des estimations de forces dans les premières et dernières minutes pour déterminer séparément la force de chaque personne. Même s'ils travaillent toujours dans le même temps, le fait qu'il y ait un peu de différence vous permet d'obtenir des estimations de la force pour chacun.

Si vous voyiez chaque homme pousser indépendamment pendant dix minutes, cela vous donnerait une estimation plus précise des forces que s'il y avait un chevauchement important des forces.

Je laisse comme exercice au lecteur d’étendre cette affaire à un homme poussant en montée et à l’autre poussant en descente (cela fonctionne toujours).

La multicolinéarité parfaite vous empêche d'estimer les forces séparément; quasi multicolinéarité vous donne des erreurs types plus grandes.


6

Je pense vraiment à cela en termes d’information. Dites chacun et a des informations sur . Plus et sont corrélés , plus les informations sur de et se ressemblent ou se chevauchent, au point que pour parfaitement corrélé et , il s'agit en réalité du même contenu d'information. Si nous mettons maintenant et dans le même modèle (de régression) pour expliquer , le modèle tente de "répartir" les informations qui (X1X2YX1X2YX1X2X1X2X1X2YX1 , ) contient environ pour chacun des et , de manière quelque peu arbitraire. Il n’existe aucun moyen vraiment de répartir cela, car toute scission de l’information conduit toujours à conserver l’information totale de ( , ) dans le modèle (pour les parfaitement corrélés , il s’agit vraiment d’une cas de non-identifiabilité). Cela conduit à des estimations individuelles instables pour les coefficients individuels de et , bien que si vous regardez les valeurs prédites sur plusieurs exécutions et estimations de etX2YX1X2X1X2XX1X2b1X1+b2X2b1b2, ceux-ci seront assez stables.


4

Mon intuition (très) profane pour cela est que le modèle OLS a besoin d'un certain niveau de "signal" dans la variable X pour le détecter, ce qui donne une "bonne" prédiction pour Y. Si le même "signal" est réparti sur de nombreux X (car ils sont corrélés), alors aucun des X corrélés ne peut donner suffisamment de "preuve" (signification statistique) pour qu’il s’agisse d’un prédicteur réel.

Les réponses précédentes (merveilleuses) font un excellent travail pour expliquer pourquoi il en est ainsi.


3

Supposons que deux personnes ont collaboré et ont accompli une découverte scientifique. Il est facile de dire leurs contributions uniques (qui a fait quoi) lorsque deux personnes sont totalement différentes (l’un est théoriquement mec et l’autre est expérimenté), alors qu’il est difficile de distinguer leurs influences uniques (coefficients de régression) les jumeaux agissant de la même manière.


2

Si deux régresseurs sont parfaitement corrélés, leurs coefficients seront impossibles à calculer; il est utile de déterminer pourquoi ils seraient difficiles à interpréter si nous pouvions les calculer . En fait, cela explique pourquoi il est difficile d'interpréter des variables qui ne sont pas parfaitement corrélées, mais qui ne sont pas non plus vraiment indépendantes.

Supposons que notre variable dépendante est l'offre quotidienne de poisson à New York et que nos variables indépendantes incluent l'une pour savoir s'il pleut ce jour-là et l'autre pour la quantité d'appât achetée ce jour-là. Ce que nous ne réalisons pas lorsque nous collectons nos données, c’est que chaque fois qu’il pleut, les pêcheurs n’achètent aucun appât et chaque fois qu’il ne le fait pas, ils achètent une quantité constante d’appâts. Donc, Bait et Rain sont parfaitement corrélés et lorsque nous effectuons notre régression, nous ne pouvons pas calculer leurs coefficients. En réalité, Bait et Rain ne sont probablement pas parfaitement corrélés, mais nous ne voudrions pas les inclure tous les deux comme régresseurs sans les nettoyer de quelque façon que ce soit de leur endogénéité.


1

Je pense que le piège des variables nominales offre une autre possibilité utile pour illustrer le problème posé par la multicolinéarité. Rappelez-vous que cela se produit lorsque le modèle contient un ensemble complet et constant de nuls. Ensuite, la somme des mannequins s’ajoute à un, la constante, donc la multicolinéarité.

Par exemple, un mannequin pour les hommes et un autre pour les femmes:

yi=β0+β1Mani+β2Womani+ui

L'interprétation standard de est le changement attendu dans du changement de de 0 à 1. De même, est le changement attendu dans du changement de de 0 à 1. Y M a n i ß 2 Y W o m a n iβ1YManiβ2YWomani

Mais, qu'est-ce que alors censé représenter ...? C'est , donc le résultat attendu pour les personnes qui ne sont ni un homme ni une femme ... il est probablement prudent de dire que, pour la quasi-totalité des jeux de données que vous rencontrerez, ce n'est pas le cas. une question utile à poser :-). E ( y i | M a n i = 0 , W o m a n i = 0 )β0E(yi|Mani=0,Womani=0)

En utilisant notre site, vous reconnaissez avoir lu et compris notre politique liée aux cookies et notre politique de confidentialité.
Licensed under cc by-sa 3.0 with attribution required.