Existe-t-il un moyen élégant / perspicace de comprendre cette identité de régression linéaire pour plusieurs ?


10

En régression linéaire, je suis tombé sur un résultat délicieux que si nous ajustons le modèle

E[Y]=β1X1+β2X2+c,

puis, si nous normalisons et données , et ,YX1X2

R2=Cor(Y,X1)β1+Cor(Y,X2)β2.

Cela me semble être une version à 2 variables de la régression pour , ce qui est agréable.R2=Cor(Y,X)2y=mx+c

Mais la seule preuve que je connaisse n'est en aucun cas constructive ou perspicace (voir ci-dessous), et pourtant, à y regarder, il semble que cela devrait être facilement compréhensible.

Exemples de réflexions:

  • Les et nous donnent la 'proportion' de et en , et donc nous prenons des proportions respectives de leurs corrélations ...β 2 X 1 X 2 Yβ1β2X1X2Y
  • Les s sont des corrélations partielles, est la corrélation multiple au carré ... corrélations multipliées par des corrélations partielles ...R 2βR2
  • Si nous orthogonisons d'abord, alors les seront ... ce résultat a-t-il un sens géométrique?C o v / V a rβCov/Var

Aucun de ces fils ne semble me mener nulle part. Quelqu'un peut-il expliquer clairement comment comprendre ce résultat?


Preuve insatisfaisante

R2=SSregSSTot=SSregN=(β1X1+β2X2)2=β12X12+β22X22+2β1β2X1X2

et

Cor(Y,X1)β1+Cor(Y,X2)β2=YX1β1+YX2β2=β1X12+β2X1X2β1+β1X1X2+β2X22β2=β12X12+β22X22+2β1β2X1X2

QED.


Vous devez utiliser des variables standardisées, sinon votre formule pour n'est pas garantie entre et . Bien que cette hypothèse ressorte de votre preuve, elle aiderait à la rendre explicite au départ. Je suis également perplexe sur ce que vous faites vraiment: votre est clairement une fonction du modèle seul - n'ayant rien à voir avec les données - mais vous commencez par mentionner que vous avez "ajusté" le modèle à quelque chose . 0 1 R 2R201R2
whuber

Votre meilleur résultat ne tient-il que si X1 et X2 ne sont pas parfaitement corrélés?
gung - Rétablir Monica

@gung Je ne pense pas - la preuve en bas semble dire que cela fonctionne malgré tout. Ce résultat me surprend aussi, voulant donc une "preuve de compréhension claire"
Korone

@whuber Je ne sais pas ce que vous entendez par "fonction du modèle seul"? Je veux simplement dire le pour OLS simple avec deux variables prédictives. C'est à dire qu'il s'agit de la version à 2 variables deR 2 = C o r ( Y , X ) 2R2R2=Cor(Y,X)2
Korone

Je ne peux pas dire si vos sont les paramètres ou les estimations. βi
whuber

Réponses:


9

La matrice du chapeau est idempotente.

(Il s'agit d'une façon linéaire et algébrique de déclarer que l'OLS est une projection orthogonale du vecteur de réponse sur l'espace couvert par les variables.)


Rappelons que par définition

R2=ESSTSS

ESS=(Y^)Y^

est la somme des carrés des valeurs prédites (centrées) et

TSS=YY

est la somme des carrés des valeurs de réponse (centrées). La standardisation préalable de en variance unitaire implique égalementY

TSS=YY=n.

Rappelons également que les coefficients estimés sont donnés par

β^=(XX)XY,

D'où

Y^=Xβ^=X(XX)XY=HY

où est la « matrice de chapeau » effectuer la projection de sur ses moindres carrés . Il est symétrique (ce qui est évident de par sa forme même) et idempotent . Voici une preuve de ce dernier pour ceux qui ne connaissent pas ce résultat. Il s'agit simplement de mélanger les parenthèses:HYY^

HH=HH=(X(XX)X)(X(XX)X)=X(XX)(XX)(XX)X=X(XX)X=H.

Donc

R2=ESSTSS=1n(Y^)Y^=1nYHHY=1nYHY=(1nYX)β^.

Le mouvement crucial au milieu a utilisé l'idempotence de la matrice du chapeau. Le côté droit est ta formule magique car est la (ligne) vecteur des coefficients de corrélation entre et les colonnes de .1nYXYX


(+1) Très belle rédaction. Mais pourquoi ^{-}au lieu de ^{-1}partout?
amoeba

1
@amoeba C'est un inverse généralisé , mis là pour gérer les cas où peut être singulier. XX
whuber

4
@amoeba Penrose, dans son article original ( A Generalized Inverse for Matrices , 1954), utilisait la notation . Je n'aime ni cela ni la notation parce qu'ils sont trop facilement confondus avec des conjugués, des transposés ou des transposés conjugués, tandis que la notation est si suggestive d'un inverse que le lecteur occasionnel peut s'en tirer en pensant à comme s'ils le souhaitent. Vous êtes tout simplement trop bon lecteur - mais merci de l'avoir remarqué. AA+AA1
whuber

1
Motivation intéressante et convaincante, mais puis-je demander si cette notation est quelque chose qui est parfois utilisée ailleurs ou est-ce votre propre invention?
amibe

5
@amoeba: Oui, cette notation apparaît ailleurs, y compris dans les textes classiques de Graybill sur le modèle linéaire.
cardinal

5

Les trois formules suivantes sont bien connues, elles se retrouvent dans de nombreux ouvrages sur la régression linéaire. Il n'est pas difficile de les dériver.

β1=rYX1rYX2rX1X21rX1X22

β2=rYX2rYX1rX1X21rX1X22

R2=rYX12+rYX222rYX1rYX2rX1X21rX1X22

Si vous substituez les deux bêtas dans votre équation , vous obtiendrez la formule ci-dessus pour le carré R.R2=rYX1β1+rYX2β2


Voici un "aperçu" géométrique. Ci-dessous, deux images montrant la régression de par et . Ce type de représentation est connu sous le nom de variables en tant que vecteurs dans l'espace sujet (veuillez lire de quoi il s'agit). Les images sont dessinées après que les trois variables ont été centrées, et donc (1) la longueur de chaque vecteur = st. écart de la variable respective, et (2) angle (son cosinus) entre tous les deux vecteurs = corrélation entre les variables respectives.YX1X2

entrez la description de l'image ici

Y^ est la prédiction de régression (projection orthogonale de sur le "plan X"); est le terme d'erreur; , coefficient de corrélation multiple.YecosYY^=|Y^|/|Y|

L'image de gauche représente les coordonnées de biais de sur les variables et . Nous savons que ces coordonnées relient les coefficients de régression. A savoir, les coordonnées sont: et .Y^X1X2b1|X1|=b1σX1b2|X2|=b2σX2

Et l'image de droite montre les coordonnées perpendiculaires correspondantes . Nous savons que ces coordonnées relient les coefficients de corrélation d'ordre zéro (ce sont des cosinus de projections orthogonales). Si est la corrélation entre et et est la corrélation entre et alors la coordonnée est . De même pour l'autre coordonnée, .r1YX1r1Y^X1r1|Y|=r1σY=r1|Y^|=r1σY^r2|Y|=r2σY=r2|Y^|=r2σY^

Jusqu'à présent, il s'agissait d'explications générales sur la représentation des vecteurs de régression linéaire. Nous passons maintenant à la tâche pour montrer comment cela peut conduire à .R2=r1β1+r2β2

Tout d'abord, rappelez-vous que dans leur question @Corone a mis en avant la condition que l'expression est vraie lorsque les trois variables sont normalisées , c'est-à-dire non seulement centrées mais également mises à l'échelle à la variance 1. Ensuite (c'est-à-dire impliquant pour être les "parties actives" des vecteurs) nous avons des coordonnées égales à: ; ; ; ; ainsi que. Redessinez, dans ces conditions, juste le "plan X" des images ci-dessus:|X1|=|X2|=|Y|=1b1|X1|=β1b2|X2|=β2r1|Y|=r1r2|Y|=r2R=|Y^|/|Y|=|Y^|

entrez la description de l'image ici

Sur la photo, nous avons une paire de coordonnées perpendiculaires et une paire de coordonnées obliques, du même vecteur de longueur . Il existe une règle générale pour obtenir des coordonnées perpendiculaires à partir de biais (ou inverses): , où est une matrice de coordonnées perpendiculaires; est la même matrice de tailles asymétriques; et sont la matrice symétrique d'angles (cosinus) entre les axes non orthogonaux.Y^RP=SCPpoints X axesSCaxes X axes

X1 et sont les axes dans notre cas, avec étant le cosinus entre eux. Donc, et .X2r12r1=β1+β2r12r2=β1r12+β2

Remplacez ces s exprimés via s dans l'instruction @ Corone , et vous obtiendrez ce , - ce qui est vrai , car c'est exactement la façon dont une diagonale d'un parallélogramme (teintée sur l'image) est exprimée via ses côtés adjacents (la quantité étant le produit scalaire).β R 2 = r 1 β 1 + r 2 β 2 R 2 = β 2 1 + β 2 2 + 2 β 1 β 2 r 12 β 1 β 2 r 12rβR2=r1β1+r2β2R2=β12+β22+2β1β2r12 β1β2r12

Cette même chose est vraie pour n'importe quel nombre de prédicteurs X. Malheureusement, il est impossible de dessiner les mêmes images avec de nombreux prédicteurs.


1
+1 agréable de voir qu'il est construit de cette façon également, mais cela n'ajoute pas autant d'informations que la réponse de
whuber

2
@Corone, j'ai ajouté quelques "informations" que vous pourriez prendre.
ttnphns

1
+1 Vraiment cool (après la mise à jour). J'ai pensé qu'invoquer la "règle générale" de conversion entre les coordonnées est un peu exagéré (et pour moi, c'était seulement déroutant); pour voir que par exemple il suffit de se souvenir de la définition du cosinus et de regarder l'un des triangles droits. r1=β1+β2r12
amoeba

Édition vraiment cool, commutée acceptée.
Korone
En utilisant notre site, vous reconnaissez avoir lu et compris notre politique liée aux cookies et notre politique de confidentialité.
Licensed under cc by-sa 3.0 with attribution required.