Quelle est l'intuition derrière les distributions gaussiennes conditionnelles?


46

Supposons que XN2(μ,Σ) . Alors la distribution conditionnelle de X1 étant donné que X2=x2 est multivariée, normalement distribuée, avec la moyenne:

E[P(X1|X2=x2)]=μ1+σ12σ22(x2μ2)

et de variance:

Var[P(X1|X2=x2)]=σ11σ122σ22

Il est logique que la variance diminue car nous avons plus d'informations. Mais quelle est l'intuition derrière la formule moyenne? Comment la covariance entre X1 et X2 facteur dans le conditionnel signifie?


2
Votre question est-elle simplement "pourquoi la moyenne de la distribution conditionnelle n'est-elle pas = μ1 "?
Gay - Rétablir Monica

@gung: Ceci est vrai si x2=μ2 . Mais pourquoi σ11 et σ22 impliqués?
eroeijr

3
En unités naturelles ("normalisées"), nous écrivons σ i = Xi=μ1+σiZi . En ces termes, la distribution conditionnelle est normale avecE(Z1|Z2)=ρZ2etρ=σ12/(σ1σ2). Le fait que| ρ| 1est appelé "retour à la moyenne" ou"régression à la moyenne": il existe une littérature technique et populaire abondante sur ce sujet depuis 130 ans. σi=σiiE(Z1|Z2)=ρZ2ρ=σ12/(σ1σ2).|ρ|1
whuber

2
Dis, eroeijr, est- ce que ce post est le vôtre? (En plus de l'invité au début, les noms sont très similaires.) Si c'est le vôtre, vous devriez demander à fusionner les deux comptes et gagner le gros bonus que vous auriez.
Glen_b

2
Comme @Glen_b l'a suggéré, si vous avez plusieurs comptes (non enregistrés), veuillez compléter le formulaire à l' adresse stats.stackexchange.com/contact et demander qu'ils soient fusionnés.
chl

Réponses:


57

Synopsis

Chaque affirmation de la question peut être comprise comme une propriété des ellipses. La seule propriété nécessaire à la distribution normale bivariée requise est le fait que, dans une distribution normale standard bivariée de - pour laquelle X et Y ne sont pas corrélés - la variance conditionnelle de Y ne dépend pas de XX,YXYYX . (Ceci est une conséquence immédiate du fait que l'absence de corrélation implique l'indépendance des variables conjointement normales.)

L'analyse suivante montre précisément quelle propriété des ellipses est impliquée et dérive toutes les équations de la question à l'aide d'idées élémentaires et de l'arithmétique la plus simple possible, de manière à pouvoir être facilement mémorisées.


Distributions circulaires symétriques

La distribution de la question appartient à la famille des distributions normales à deux variables. Elles sont toutes dérivées d'un membre de base, la norme bivariée standard , qui décrit deux distributions de la norme standard non corrélées (formant ses deux coordonnées).

Figure 1: la distribution normale bivariée standard

Le côté gauche est un graphique en relief de la densité normale bivariée standard. Le côté droit montre la même chose en pseudo-3D, avec la partie avant découpée.

Voici un exemple de distribution symétrique circulaire : la densité varie avec la distance depuis un point central mais pas avec la direction l’éloignant de ce point. Ainsi, les contours de son graphique (à droite) sont des cercles.

La plupart des autres distributions normales à deux variables ne sont toutefois pas symétriques de façon circulaire: leurs sections efficaces sont des ellipses. Ces ellipses modélisent la forme caractéristique de nombreux nuages ​​de points bivariés.

Figure 2: une autre distribution normale bivariée, tracée

Ce sont des portraits de la distribution normale bivariée avec la matrice de covariance Il est un modèle de données aveccoefficient de corrélation-deux/trois.Σ=(123231).2/3


Comment créer des ellipses

Selon sa plus ancienne définition, une ellipse est une section conique, qui est un cercle déformé par une projection sur un autre plan. En considérant la nature de la projection, comme le font les artistes visuels, nous pouvons la décomposer en une suite de distorsions faciles à comprendre et à calculer.

Tout d’abord, étirez (ou si nécessaire, comprimez) le cercle le long de ce qui deviendra le grand axe de l’ellipse jusqu’à ce que sa longueur soit correcte:

Étape 1: étirer

Ensuite, pressez (ou étirez) cette ellipse le long de son axe mineur:

Étape 2: presser

Troisièmement, faites-le pivoter autour de son centre dans son orientation finale:

Étape 3: faire pivoter

Enfin, déplacez-le à l'emplacement souhaité:

Étape 4: décalage

Ce sont toutes des transformations affines. (En fait, les trois premières sont des transformations linéaires ; le décalage final le rend affine.) Comme une composition de transformations affines est (par définition) toujours affine, la distorsion nette du cercle à l'ellipse finale est une transformation affine. Mais cela peut être un peu compliqué:

Transformation composite

Remarquez ce qui est arrivé aux axes (naturels) de l'ellipse: après avoir été créés par le décalage et la compression, ils ont (bien sûr) pivoté et décalé le long de l'axe lui-même. Nous voyons facilement ces axes même lorsqu'ils ne sont pas dessinés, car ce sont des axes de symétrie de l'ellipse elle-même.

Nous aimerions appliquer notre compréhension des ellipses à la compréhension de distributions distordues de symétrie circulaire, comme la famille normale à deux variables. Malheureusement, ces distorsions posent un problème : elles ne respectent pas la distinction entre les axes et y . La rotation à l'étape 3 ruine cela. Regardez les faibles grilles de coordonnées dans les arrière - plans: ceux - ci montrent ce qui arrive à une grille (de maille 1 / 2xy1/2dans les deux sens) quand il est déformé. Dans la première image, l'espacement entre les lignes verticales d'origine (en trait plein) est doublé. Dans la deuxième image, l'espacement entre les lignes horizontales d'origine (en pointillé) est réduit d'un tiers. Dans la troisième image, les espacements de la grille ne sont pas modifiés mais toutes les lignes sont pivotées. Ils se déplacent vers le haut et à droite dans la quatrième image. L'image finale, montrant le résultat net, affiche cette grille étirée, comprimée, tournée et décalée. Les lignes continues d'origine de coordonnée constante ne sont plus verticales.x

L'idée principale - on pourrait dire que c'est le noeud de la régression - est qu'il existe une manière de déformer le cercle en une ellipse sans faire pivoter les lignes verticales . Parce que la rotation en était la cause, allons droit au but et montrons comment créer une ellipse en rotation sans faire semblant de faire pivoter quoi que ce soit !

Ellipse en biais

C'est une transformation asymétrique. Il fait en réalité deux choses à la fois:

  • Il se serre dans la direction (d'un montant λ , disons). Cela laisse l’ axe x seul.yλx

  • Il soulève tout point résultant d'un montant directement proportionnel à x . En écrivant cette constante de proportionnalité sous forme de ρ , ceci envoie ( x , y ) à ( x , y + ρ x ) .(x,y)xρ(x,y)(x,y+ρx)

La deuxième étape soulève l’ axe dans la ligne y = ρ x , illustrée à la figure précédente. Comme le montre cette figure, je souhaite travailler avec une transformation oblique spéciale, qui effectue une rotation efficace de l'ellipse de 45 degrés et l'inscrit dans le carré de l'unité. Le grand axe de cette ellipse est la droite y = x . Il est visuellement évident que | ρ | 1 . (Les valeurs négatives de ρ inclinent l'ellipse vers la droite plutôt que vers le haut.) Ceci est l'explication géométrique de "régression à la moyenne".xy=ρxy=x|ρ|1ρ

Le choix d'un angle de 45 degrés rend l'ellipse symétrique autour de la diagonale du carré (partie de la ligne ). Pour comprendre les paramètres de cette transformation oblique, observez:y=x

  • L'élévation de déplace le point ( 1 , 0 ) vers ( 1 , ρ ) .ρx(1,0)(1,ρ)

  • La symétrie autour de la diagonale principale implique alors que le point se trouve également sur l'ellipse.(ρ,1)

Où ce point a-t-il commencé?

  • Le point original (supérieur) du cercle unitaire (équation implicite ) avec la coordonnée x ρ était ( ρ , x2+y2=1xρ.(ρ,1ρ2)

  • Tout point de la forme abord été compressé en ( ρ , λ y ) puis élevé à ( ρ , λ y + ρ × ρ ) .(ρ,y)(ρ,λy)(ρ,λy+ρ×ρ)

La solution unique à l’équation estλ=(ρ,λ1ρ2+ρ2)=(ρ,1) . C'est la quantité par laquelle toutes les distances dans la direction verticale doivent être comprimées afin de créer une ellipse à un angle de 45 degrés lorsqu'elle est inclinée verticalement deρ.λ=1ρ2ρ

Pour affermir ces idées, voici un tableau montrant comment une distribution de symétrie circulaire est déformée en distributions à contours elliptiques au moyen de ces transformations asymétriques. Les panneaux présentent des valeurs de sont égaux à 0 , 3 / 10 , 6 / 10 , et 9 / 10 , de gauche à droite.ρ0, 3/10, 6/10,9/10,

Tableau

La figure la plus à gauche montre un ensemble de points de départ autour de l'un des contours circulaires ainsi qu'une partie de l'axe horizontal. Les figures suivantes utilisent des flèches pour montrer comment ces points sont déplacés. L'image de l'axe horizontal apparaît sous la forme d'un segment de ligne incliné (avec une pente ). (Les couleurs représentent différentes quantités de densité dans les différentes figures.)ρ


Application

Nous sommes prêts à faire la régression. Une méthode standard, élégante (mais simple) pour effectuer une régression consiste d’abord à exprimer les variables originales en nouvelles unités de mesure: nous les centrons sur leurs moyennes et utilisons leurs écarts types comme unités. Cela déplace le centre de la distribution vers l'origine et fait en sorte que tous ses contours elliptiques soient inclinés à 45 degrés (haut ou bas).

Lorsque ces données normalisées forment un nuage de points circulaire, la régression est simple: les moyennes conditionnelles à sont toutes égales à 0 , formant une ligne passant par l'origine. (La symétrie circulaire implique une symétrie par rapport à l' axe des x , ce qui montre que toutes les distributions conditionnelles sont symétriques, d'où leur valeur 0 ). Comme nous l'avons vu, nous pouvons voir que la distribution standardisée résulte de cette situation simple de base en deux étapes: , toutes les valeurs y (normalisées) sont multipliées par x0x0y pour une valeur deρ; ensuite, toutes les valeurs avec descoordonnéesxsont verticalement inclinées parρx. Qu'est-ce que ces distorsions ont fait sur la droite de régression (qui trace le moyen conditionnel contrex)?1ρ2ρxρxx

  • Le rétrécissement des coordonnées multiplié toutes les déviations verticales par une constante. Cela a simplement changé l'échelle verticale et laissé tous les moyens conditionnels inchangés à 0 .y0

  • La transformation de biais verticale a ajouté à toutes les valeurs conditionnelles en x , ajoutant ainsi ρ x à leur moyenne conditionnelle: la courbe y = ρ x est la courbe de régression, qui se révèle être une ligne.ρxxρxy=ρx

De même, nous pouvons vérifier que, puisque l’ axe est l’ajustement des moindres carrés à la distribution symétrique circulaire, l’ajustement des moindres carrés à la distribution transformée est également la ligne y = ρ x : la ligne des moindres carrés coïncide avec la ligne de régression.xy=ρx

Ces beaux résultats sont une conséquence du fait que la transformation oblique verticale ne change aucune des coordonnées .x

On peut facilement en dire plus:

  • La première puce (sur le rétrécissement) montre que, lorsque a une distribution circulaire symétrique, la variance conditionnelle de Y | X a été multiplié par ( (X,Y)Y|X.(1ρ2)2=1ρ2

  • Plus généralement: la transformation de biais verticale redimensionne chaque distribution conditionnelle de puis il se recentre parρx.1ρ2ρx

Pour la distribution normale bivariée standard, la variance conditionnelle est une constante (égale à ), indépendante de x . Nous concluons immédiatement qu'après l'application de cette transformation asymétrique, la variance conditionnelle des déviations verticales est toujours constante et égale à 1 - ρ 2 . Comme les distributions conditionnelles d'une normale bivariée sont elles-mêmes normales, maintenant que nous connaissons leurs moyennes et leurs variances, nous avons toutes les informations à leur sujet.1x1ρ2

Enfin, nous devons relier à la matrice de covariance initiale Σ . ρΣ A cet effet , rappeler que la définition (meilleurs) du coefficient de corrélation entre deux normalisé les variables et Y est l'attente de leur produit X Y . (La corrélation de X et Y est simplement déclarée être la corrélation de leurs versions normalisées.) Par conséquent, lorsque ( X , Y ) suit une distribution symétrique circulaire et que nous appliquons la transformation asymétrique aux variables, nous pouvons écrireXYXYXY(X,Y)

ε=YρX

pour les déviations verticales par rapport à la droite de régression et notez que doit avoir une distribution symétrique autour de 0 . Pourquoi? Parce que , avant la transformation d' inclinaison a été appliquée, Y a une distribution symétrique autour de 0 , puis on (a) la serra et (b) levée par ρ X . Le premier n'a pas changé de symétrie tandis que le dernier l'a recadrée à ρ X , QED. La figure suivante illustre cela.ε0Y0ρXρX

Tracé 3D montrant les distributions conditionnelles et la ligne des moindres carrés

Les lignes noires tracent des hauteurs proportionnelles aux densités conditionnelles à différentes valeurs de régulièrement espacées . La ligne blanche épaisse est la ligne de régression, qui passe par le centre de symétrie de chaque courbe conditionnelle. Ce graphique montre le cas ρ = - 1 / 2 en coordonnées normalisées.xρ=1/2

par conséquent

E(XY)=E(X(ρX+ε))=ρE(X2)+E(Xε)=ρ(1)+0=ρ.

La dernière égalité est due à deux faits: (1) parce que a été normalisé, l’attente de son carré est sa variance normalisée, égale à 1 par construction; et (2) l'attente de X ε égale l'attente de X ( - ε ) en vertu de la symétrie de ε . Comme ce dernier est le négatif du premier, les deux doivent être égaux à 0 : ce terme disparaît.X1XεX(ε)ε0

Nous avons identifié le paramètre de la transformation d' inclinaison, , comme étant le coefficient de corrélation de X et Y .ρXY


Conclusions

En observant que toute ellipse peut être produite en déformant un cercle avec une transformation oblique verticale préservant la coordonnée , nous en sommes arrivés à comprendre les contours de toute distribution de variables aléatoires ( X , Y ) obtenue à partir d'une symétrie circulaire. l'une au moyen d'étirements, de compressions, de rotations et de changements (c'est-à-dire toute transformation affine). En ré-exprimant les résultats en unités originales de x et y - ce qui revient à rajouter leurs moyennes, μ x et μ y , après avoir multiplié par leurs écarts types σ xx(X,Y)xyμxμyσxet nous constatons que:σy

  • La droite des moindres carrés et la courbe de régression passent toutes deux par l'origine des variables standardisées, ce qui correspond au "point des moyennes" en coordonnées d'origine.(μx,μy)

  • La courbe de régression, définie comme étant le lieu des moyennes conditionnelles, coïncide avec la droite des moindres carrés.{(x,ρx)},

  • La pente de la droite de régression en coordonnées normalisées est le coefficient de corrélation ; dans les unités d'origine, il est donc égal à σ y ρ / σ x .ρσyρ/σx

Par conséquent, l'équation de la droite de régression est

y=σyρσx(xμx)+μy.
  • La variance conditionnelle de est σ 2 y ( 1 - ρ 2 ) fois la variance conditionnelle de Y ' | X '( X ' , Y ' ) a une distribution standard (symétrique circulaire avec des variances unitaires dans les deux coordonnées), X ' = ( X - μ X ) / σ x et Y ' = ( Y - μY|Xσy2(1ρ2)Y|X(X,Y)X=(XμX)/σx .Y=(YμY)/σY

Aucun de ces résultats n’est une propriété particulière des distributions normales à deux variables! Pour la famille normale bivariée, la variance conditionnelle de est constant (et égal à 1 ): ce fait rend la famille particulièrement facile à travailler. En particulier:Y|X1

  • Parce que dans la matrice covariance les coefficients sont σ 11 = σ 2 xΣσ 12 = σ 21 = p σ x σ y , et σ 22 = σ 2 y , la variance conditionnelle de Y | X pour une distribution normale à deux variables estσ11=σx2, σ12=σ21=ρσxσy,σ22=σy2,Y|X

σy2(1ρ2)=σ22(1(σ12σ11σ22)2)=σ22σ122σ11.

Notes techniques

L'idée clé peut être énoncée sous forme de matrices décrivant les transformations linéaires. Cela revient à trouver une "racine carrée" convenable de la matrice de corrélation pour laquelle est un vecteur propre. Ainsi:y

(1ρρ1)=AA

A=(10ρ1ρ2).

Une racine carrée bien mieux connue est celle décrite initialement (impliquant une rotation au lieu d’une transformation asymétrique); c'est celui produit par une décomposition en valeurs singulières et il joue un rôle important dans l'analyse en composantes principales (ACP):

(1ρρ1)=BB;

B=Q(ρ+1001ρ)Q

est la matrice de rotation pour unerotation de45degrés.Q=(12121212)45

Ainsi, la distinction entre ACP et régression se résume à la différence entre deux racines carrées spéciales de la matrice de corrélation.


1
De belles images et de superbes descriptions. Il y avait quelques phrases dans la mise à jour qui restaient incomplètes (comme si vous saviez ce que vous alliez dire, mais que vous n'aviez pas encore choisi le texte final).
cardinal

1
@ Cardinal Merci. Je vais relire ceci et chercher de telles choses, ainsi que les fautes de frappe inévitables. Vous êtes trop aimable pour souligner d'autres choses que vous avez sûrement remarquées, telles que des lacunes dans l'exposition. Le plus important est que je n’ai pas réellement montré que ces ellipses avaient un angle de 45 degrés (équivalent, inscrit dans le carré unitaire); J'ai simplement supposé cela. Je cherche encore une démonstration simple. L'autre est que l'on pourrait craindre que la transformation oblique ne produise une distribution différente de celle d'origine, mais il est facile de montrer que ce n'est pas le cas.
whuber

3
C'est vraiment intéressant. Merci d'avoir pris le temps de le rédiger.
Bill

Au premier paragraphe des applications, il est écrit que: "nous les centrons sur leurs moyens et utilisons leurs écarts-types en tant qu'unités. Cela déplace le centre de la distribution à l'origine et en incline tous les contours elliptiques à 45 degrés", mais je ne le fais pas. t comprendre comment le centrage des variables sur leurs moyens déplace leurs centres vers l’origine et les aligne à 45 degrés?
Kaushal28

@whuber lorsque vous commencez avec un cercle unitaire (ensemble d'échantillons normalisé), vous dites que la corrélation est égale à 0, alors j'imagine que nous obtenons un cercle de type . Mais comment 0 corrélation signifie indépendance? (carf(X,Y)est obtenu parf(X)f(Yf(X,Y)=e12(x2+y2)f(X,Y) comme nous le voyons. Ce n'est généralement pas vrai. Même des variables dépendantes pourraient produire une corrélationf(X)f(Y)
nulle

21

Il s’agit d’une régression essentiellement linéaire (MCO). Dans ce cas, vous trouvez la distribution conditionnelle de étant donné que X = x i . (À proprement parler, la régression OLS ne fait pas de suppositions sur la distribution de X , alors que votre exemple est une normale multivariée, mais nous allons ignorer ces choses.) Maintenant, si la covariance entre X 1 et X 2 n'est pasYX=xiXX1X2 , alors la moyenne de ladistributionconditionnellede X 2 doit être modifiée lorsque vous modifiez la valeur de x 10X2x1où vous «découpez» la distribution multivariée. Considérons la figure ci-dessous:

entrez la description de l'image ici

X1X2X2X1μX2|X1=25μX2|X1=45.

σ22ΣX2σ2σ )

y^i

β^1=Cov(x,y)Var(x)
σ12/σ22μX2|X1=xiμX2μX2 x2iX1X2

Qu'advient-il si vous conditionnez sur plus de variables? Vous voudriez simplement additionner et soustraire des termes supplémentaires de la moyenne et de la variance?

2
YXy^je=Xjeβ^β^=(XTX)-1XTY

Qu'avez-vous utilisé pour produire le graphique? Mathematica?
Mpiktas

@mpiktas, mon graphique ou whuber? Je crois que c’est Mathematica, mais j’ai fait celui ci-dessus avec R. (code laid, mais ...)
gung - Reinstate Monica

1
@mpiktas, je ne peux pas imaginer que mon code devrait être décrit comme "génial" ... Les courbes normales sont dessinées avec dnorm(y). J'ajoute simplement la sortie à 25& 45, & use as x.
gung - Réintégrer Monica

3

X1X2σ1,2>0X2X2X1X1

X2=x2>μ2X2X1σ1,2>0X1X2X2X1

E{X1|X2=x2}=μ1+σ1,2σ2,2(x2μ2)
X2E{X1|X2=x2}>μ1

X1X2

BLP{X1|X2=x2}=μ1+σ1,2σ2,2(x2μ2)
BLP

x2μ2σ12/σ22

1
x2>μ2E(X1|X2=x2)<μ1σ1,2>0

1
"Intuitif" n'implique pas "non quantitatif": les deux peuvent aller ensemble. Il est souvent difficile de trouver un argument intuitif donnant des résultats quantitatifs, mais cela peut souvent être fait et le processus de recherche d'un tel argument est toujours éclairant.
whuber

Concernant le dernier paragraphe: j’ai découvert que la distribution normale n’est pas si spéciale: les familles créées par des transformations affines de distributions circulaires symétriques sont les plus spéciales (très nombreuses).
whuber

@ Whuber C'est assez intéressant. Avez-vous un lien ou citer?
Bill
En utilisant notre site, vous reconnaissez avoir lu et compris notre politique liée aux cookies et notre politique de confidentialité.
Licensed under cc by-sa 3.0 with attribution required.