Synopsis
Chaque affirmation de la question peut être comprise comme une propriété des ellipses. La seule propriété nécessaire à la distribution normale bivariée requise est le fait que, dans une distribution normale standard bivariée de - pour laquelle X et Y ne sont pas corrélés - la variance conditionnelle de Y ne dépend pas de XX,YXYYX . (Ceci est une conséquence immédiate du fait que l'absence de corrélation implique l'indépendance des variables conjointement normales.)
L'analyse suivante montre précisément quelle propriété des ellipses est impliquée et dérive toutes les équations de la question à l'aide d'idées élémentaires et de l'arithmétique la plus simple possible, de manière à pouvoir être facilement mémorisées.
Distributions circulaires symétriques
La distribution de la question appartient à la famille des distributions normales à deux variables. Elles sont toutes dérivées d'un membre de base, la norme bivariée standard , qui décrit deux distributions de la norme standard non corrélées (formant ses deux coordonnées).
Le côté gauche est un graphique en relief de la densité normale bivariée standard. Le côté droit montre la même chose en pseudo-3D, avec la partie avant découpée.
Voici un exemple de distribution symétrique circulaire : la densité varie avec la distance depuis un point central mais pas avec la direction l’éloignant de ce point. Ainsi, les contours de son graphique (à droite) sont des cercles.
La plupart des autres distributions normales à deux variables ne sont toutefois pas symétriques de façon circulaire: leurs sections efficaces sont des ellipses. Ces ellipses modélisent la forme caractéristique de nombreux nuages de points bivariés.
Ce sont des portraits de la distribution normale bivariée avec la matrice de covariance Il est un modèle de données aveccoefficient de corrélation-deux/trois.Σ=(1−23−231).−2/3
Comment créer des ellipses
Selon sa plus ancienne définition, une ellipse est une section conique, qui est un cercle déformé par une projection sur un autre plan. En considérant la nature de la projection, comme le font les artistes visuels, nous pouvons la décomposer en une suite de distorsions faciles à comprendre et à calculer.
Tout d’abord, étirez (ou si nécessaire, comprimez) le cercle le long de ce qui deviendra le grand axe de l’ellipse jusqu’à ce que sa longueur soit correcte:
Ensuite, pressez (ou étirez) cette ellipse le long de son axe mineur:
Troisièmement, faites-le pivoter autour de son centre dans son orientation finale:
Enfin, déplacez-le à l'emplacement souhaité:
Ce sont toutes des transformations affines. (En fait, les trois premières sont des transformations linéaires ; le décalage final le rend affine.) Comme une composition de transformations affines est (par définition) toujours affine, la distorsion nette du cercle à l'ellipse finale est une transformation affine. Mais cela peut être un peu compliqué:
Remarquez ce qui est arrivé aux axes (naturels) de l'ellipse: après avoir été créés par le décalage et la compression, ils ont (bien sûr) pivoté et décalé le long de l'axe lui-même. Nous voyons facilement ces axes même lorsqu'ils ne sont pas dessinés, car ce sont des axes de symétrie de l'ellipse elle-même.
Nous aimerions appliquer notre compréhension des ellipses à la compréhension de distributions distordues de symétrie circulaire, comme la famille normale à deux variables. Malheureusement, ces distorsions posent un problème : elles ne respectent pas la distinction entre les axes et y . La rotation à l'étape 3 ruine cela. Regardez les faibles grilles de coordonnées dans les arrière - plans: ceux - ci montrent ce qui arrive à une grille (de maille 1 / 2xy1/2dans les deux sens) quand il est déformé. Dans la première image, l'espacement entre les lignes verticales d'origine (en trait plein) est doublé. Dans la deuxième image, l'espacement entre les lignes horizontales d'origine (en pointillé) est réduit d'un tiers. Dans la troisième image, les espacements de la grille ne sont pas modifiés mais toutes les lignes sont pivotées. Ils se déplacent vers le haut et à droite dans la quatrième image. L'image finale, montrant le résultat net, affiche cette grille étirée, comprimée, tournée et décalée. Les lignes continues d'origine de coordonnée constante ne sont plus verticales.x
L'idée principale - on pourrait dire que c'est le noeud de la régression - est qu'il existe une manière de déformer le cercle en une ellipse sans faire pivoter les lignes verticales . Parce que la rotation en était la cause, allons droit au but et montrons comment créer une ellipse en rotation sans faire semblant de faire pivoter quoi que ce soit !
C'est une transformation asymétrique. Il fait en réalité deux choses à la fois:
Il se serre dans la direction (d'un montant λ , disons). Cela laisse l’ axe x seul.yλx
Il soulève tout point résultant d'un montant directement proportionnel à x . En écrivant cette constante de proportionnalité sous forme de ρ , ceci envoie ( x , y ) à ( x , y + ρ x ) .(x,y)xρ(x,y)(x,y+ρx)
La deuxième étape soulève l’ axe dans la ligne y = ρ x , illustrée à la figure précédente. Comme le montre cette figure, je souhaite travailler avec une transformation oblique spéciale, qui effectue une rotation efficace de l'ellipse de 45 degrés et l'inscrit dans le carré de l'unité. Le grand axe de cette ellipse est la droite y = x . Il est visuellement évident que | ρ | ≤ 1 . (Les valeurs négatives de ρ inclinent l'ellipse vers la droite plutôt que vers le haut.) Ceci est l'explication géométrique de "régression à la moyenne".xy=ρxy=x|ρ|≤1ρ
Le choix d'un angle de 45 degrés rend l'ellipse symétrique autour de la diagonale du carré (partie de la ligne ). Pour comprendre les paramètres de cette transformation oblique, observez:y=x
L'élévation de déplace le point ( 1 , 0 ) vers ( 1 , ρ ) .ρx(1,0)(1,ρ)
La symétrie autour de la diagonale principale implique alors que le point se trouve également sur l'ellipse.(ρ,1)
Où ce point a-t-il commencé?
Le point original (supérieur) du cercle unitaire (équation implicite ) avec la coordonnée x ρ était ( ρ , √x2+y2=1xρ.(ρ,1−ρ2−−−−−√)
Tout point de la forme abord été compressé en ( ρ , λ y ) puis élevé à ( ρ , λ y + ρ × ρ ) .(ρ,y)(ρ,λy)(ρ,λy+ρ×ρ)
La solution unique à l’équation estλ= √(ρ,λ1−ρ2−−−−−√+ρ2)=(ρ,1) . C'est la quantité par laquelle toutes les distances dans la direction verticale doivent être comprimées afin de créer une ellipse à un angle de 45 degrés lorsqu'elle est inclinée verticalement deρ.λ=1−ρ2−−−−−√ρ
Pour affermir ces idées, voici un tableau montrant comment une distribution de symétrie circulaire est déformée en distributions à contours elliptiques au moyen de ces transformations asymétriques. Les panneaux présentent des valeurs de sont égaux à 0 , 3 / 10 , 6 / 10 , et 9 / 10 , de gauche à droite.ρ0, 3/10, 6/10,9/10,
La figure la plus à gauche montre un ensemble de points de départ autour de l'un des contours circulaires ainsi qu'une partie de l'axe horizontal. Les figures suivantes utilisent des flèches pour montrer comment ces points sont déplacés. L'image de l'axe horizontal apparaît sous la forme d'un segment de ligne incliné (avec une pente ). (Les couleurs représentent différentes quantités de densité dans les différentes figures.)ρ
Application
Nous sommes prêts à faire la régression. Une méthode standard, élégante (mais simple) pour effectuer une régression consiste d’abord à exprimer les variables originales en nouvelles unités de mesure: nous les centrons sur leurs moyennes et utilisons leurs écarts types comme unités. Cela déplace le centre de la distribution vers l'origine et fait en sorte que tous ses contours elliptiques soient inclinés à 45 degrés (haut ou bas).
Lorsque ces données normalisées forment un nuage de points circulaire, la régression est simple: les moyennes conditionnelles à sont toutes égales à 0 , formant une ligne passant par l'origine. (La symétrie circulaire implique une symétrie par rapport à l' axe des x , ce qui montre que toutes les distributions conditionnelles sont symétriques, d'où leur valeur 0 ). Comme nous l'avons vu, nous pouvons voir que la distribution standardisée résulte de cette situation simple de base en deux étapes: , toutes les valeurs y (normalisées) sont multipliées par √x0x0y pour une valeur deρ; ensuite, toutes les valeurs avec descoordonnéesxsont verticalement inclinées parρx. Qu'est-ce que ces distorsions ont fait sur la droite de régression (qui trace le moyen conditionnel contrex)?1−ρ2−−−−−√ρxρxx
Le rétrécissement des coordonnées multiplié toutes les déviations verticales par une constante. Cela a simplement changé l'échelle verticale et laissé tous les moyens conditionnels inchangés à 0 .y0
La transformation de biais verticale a ajouté à toutes les valeurs conditionnelles en x , ajoutant ainsi ρ x à leur moyenne conditionnelle: la courbe y = ρ x est la courbe de régression, qui se révèle être une ligne.ρxxρxy=ρx
De même, nous pouvons vérifier que, puisque l’ axe est l’ajustement des moindres carrés à la distribution symétrique circulaire, l’ajustement des moindres carrés à la distribution transformée est également la ligne y = ρ x : la ligne des moindres carrés coïncide avec la ligne de régression.xy=ρx
Ces beaux résultats sont une conséquence du fait que la transformation oblique verticale ne change aucune des coordonnées .x
On peut facilement en dire plus:
La première puce (sur le rétrécissement) montre que, lorsque a une distribution circulaire symétrique, la variance conditionnelle de Y | X a été multiplié par ( √(X,Y)Y|X.(1−ρ2−−−−−√)2=1−ρ2
Plus généralement: la transformation de biais verticale redimensionne chaque distribution conditionnelle de puis il se recentre parρx.1−ρ2−−−−−√ρx
Pour la distribution normale bivariée standard, la variance conditionnelle est une constante (égale à ), indépendante de x . Nous concluons immédiatement qu'après l'application de cette transformation asymétrique, la variance conditionnelle des déviations verticales est toujours constante et égale à 1 - ρ 2 . Comme les distributions conditionnelles d'une normale bivariée sont elles-mêmes normales, maintenant que nous connaissons leurs moyennes et leurs variances, nous avons toutes les informations à leur sujet.1x1−ρ2
Enfin, nous devons relier à la matrice de covariance initiale Σ . ρΣ A cet effet , rappeler que la définition (meilleurs) du coefficient de corrélation entre deux normalisé les variables et Y est l'attente de leur produit X Y . (La corrélation de X et Y est simplement déclarée être la corrélation de leurs versions normalisées.) Par conséquent, lorsque ( X , Y ) suit une distribution symétrique circulaire et que nous appliquons la transformation asymétrique aux variables, nous pouvons écrireXYXYXY(X,Y)
ε=Y−ρX
pour les déviations verticales par rapport à la droite de régression et notez que doit avoir une distribution symétrique autour de 0 . Pourquoi? Parce que , avant la transformation d' inclinaison a été appliquée, Y a une distribution symétrique autour de 0 , puis on (a) la serra et (b) levée par ρ X . Le premier n'a pas changé de symétrie tandis que le dernier l'a recadrée à ρ X , QED. La figure suivante illustre cela.ε0Y0ρXρX
Les lignes noires tracent des hauteurs proportionnelles aux densités conditionnelles à différentes valeurs de régulièrement espacées . La ligne blanche épaisse est la ligne de régression, qui passe par le centre de symétrie de chaque courbe conditionnelle. Ce graphique montre le cas ρ = - 1 / 2 en coordonnées normalisées.xρ=−1/2
par conséquent
E(XY)=E(X(ρX+ε))=ρE(X2)+E(Xε)=ρ(1)+0=ρ.
La dernière égalité est due à deux faits: (1) parce que a été normalisé, l’attente de son carré est sa variance normalisée, égale à 1 par construction; et (2) l'attente de X ε égale l'attente de X ( - ε ) en vertu de la symétrie de ε . Comme ce dernier est le négatif du premier, les deux doivent être égaux à 0 : ce terme disparaît.X1XεX(−ε)ε0
Nous avons identifié le paramètre de la transformation d' inclinaison, , comme étant le coefficient de corrélation de X et Y .ρXY
Conclusions
En observant que toute ellipse peut être produite en déformant un cercle avec une transformation oblique verticale préservant la coordonnée , nous en sommes arrivés à comprendre les contours de toute distribution de variables aléatoires ( X , Y ) obtenue à partir d'une symétrie circulaire. l'une au moyen d'étirements, de compressions, de rotations et de changements (c'est-à-dire toute transformation affine). En ré-exprimant les résultats en unités originales de x et y - ce qui revient à rajouter leurs moyennes, μ x et μ y , après avoir multiplié par leurs écarts types σ xx(X,Y)xyμxμyσxet nous constatons que:σy
La droite des moindres carrés et la courbe de régression passent toutes deux par l'origine des variables standardisées, ce qui correspond au "point des moyennes" en coordonnées d'origine.(μx,μy)
La courbe de régression, définie comme étant le lieu des moyennes conditionnelles, coïncide avec la droite des moindres carrés.{(x,ρx)},
La pente de la droite de régression en coordonnées normalisées est le coefficient de corrélation ; dans les unités d'origine, il est donc égal à σ y ρ / σ x .ρσyρ/σx
Par conséquent, l'équation de la droite de régression est
y=σyρσx(x−μx)+μy.
- La variance conditionnelle de est σ 2 y ( 1 - ρ 2 ) fois la variance conditionnelle de Y ' | X ' où ( X ' , Y ' ) a une distribution standard (symétrique circulaire avec des variances unitaires dans les deux coordonnées), X ' = ( X - μ X ) / σ x et Y ' = ( Y - μY|Xσ2y(1−ρ2)Y′|X′(X′,Y′)X′=(X−μX)/σx .Y′=(Y−μY)/σY
Aucun de ces résultats n’est une propriété particulière des distributions normales à deux variables! Pour la famille normale bivariée, la variance conditionnelle de est constant (et égal à 1 ): ce fait rend la famille particulièrement facile à travailler. En particulier:Y′|X′1
- Parce que dans la matrice covariance les coefficients sont σ 11 = σ 2 xΣσ 12 = σ 21 = p σ x σ y , et σ 22 = σ 2 y , la variance conditionnelle de Y | X pour une distribution normale à deux variables estσ11=σ2x, σ12=σ21=ρσxσy,σ22=σ2y,Y|X
σ2y(1−ρ2)=σ22(1−(σ12σ11σ22−−−−−√)2)=σ22−σ212σ11.
Notes techniques
L'idée clé peut être énoncée sous forme de matrices décrivant les transformations linéaires. Cela revient à trouver une "racine carrée" convenable de la matrice de corrélation pour laquelle est un vecteur propre. Ainsi:y
(1ρρ1)=AA′
où
A=(1ρ01−ρ2−−−−−√).
Une racine carrée bien mieux connue est celle décrite initialement (impliquant une rotation au lieu d’une transformation asymétrique); c'est celui produit par une décomposition en valeurs singulières et il joue un rôle important dans l'analyse en composantes principales (ACP):
(1ρρ1)=BB′;
B=Q(ρ+1−−−−√001−ρ−−−−√)Q′
où est la matrice de rotation pour unerotation de45degrés.Q=⎛⎝12√12√−12√12√⎞⎠45
Ainsi, la distinction entre ACP et régression se résume à la différence entre deux racines carrées spéciales de la matrice de corrélation.