Intuition (géométrique ou autre) de


18

Considérons l'identité élémentaire de la variance:

Var(X)=E[(XE[X])2]=...=E[X2](E[X])2

Il s'agit d'une simple manipulation algébrique de la définition d'un moment central en moments non centraux.

Il permet une manipulation pratique de dans d'autres contextes. Il permet également de calculer la variance via un seul passage sur les données plutôt que deux passages, d'abord pour calculer la moyenne, puis pour calculer la variance.Var(X)

Mais qu'est-ce que cela signifie ? Pour moi, il n'y a pas d'intuition géométrique immédiate qui relie la propagation autour de la moyenne à la propagation autour de 0. Comme est un ensemble sur une seule dimension, comment voyez-vous la propagation autour d'une moyenne comme la différence entre la propagation autour de l'origine et le carré du signifier?X

Existe-t-il de bonnes interprétations d'algèbre linéaire ou des interprétations physiques ou autres qui donneraient un aperçu de cette identité?


7
Astuce: c'est le théorème de Pythagore.
whuber

1
@Matthew Je me demande ce que " " veut dire. Je soupçonne que ce n'est pas une attente, mais simplement un raccourci pour la moyenne arithmétique. Sinon, les équations seraient incorrectes (et presque dénuées de sens, car elles associeraient alors des variables aléatoires à des nombres). E
whuber

2
@whuber Étant donné que les produits internes introduisent l'idée de distances et d'angles, et que le produit interne de l'espace vectoriel des variables aléatoires à valeur réelle est défini comme (?), je me demande si une intuition géométrique pourrait être donnée via l'inégalité du triangle. Je ne sais pas comment procéder, mais je me demandais si cela avait un sens. E[XY]
Antoni Parellada

1
@Antoni L'inégalité du triangle est trop générale. Un produit intérieur est un objet beaucoup plus spécial. Heureusement, l'intuition géométrique appropriée est précisément celle de la géométrie euclidienne. De plus, même dans le cas de variables aléatoires et , la géométrie nécessaire peut être confinée à l'espace vectoriel réel bidimensionnel généré par et : c'est-à-dire au plan euclidien lui-même. Dans le cas présent, ne semble pas être un RV: c'est juste un vecteur. Ici, l'espace couvert par et est le plan euclidien dans lequel se produit toute la géométrie. Y X Y X n X ( 1 , 1 , , 1 )XYXYXnX(1,1,,1)
whuber

3
Réglage dans la réponse que je lié à, et en divisant tous les termes par (si vous le souhaitez) vous donnera la solution algébrique complète de la variance: il n'y a aucune raison de le copier tout recommencer. C'est parce que est la moyenne arithmétique de , d'où est juste fois la variance telle que vous l'avez définie ici, est fois la moyenne arithmétique au carré, et est fois la moyenne arithmétique des valeurs au carré. n β 0y| | y - y | | 2n| | y | | 2n| | y| | 2nβ^1=0nβ^0y||yy^||2n||y^||2n||y||2n
whuber

Réponses:


21

En développant le point de @ whuber dans les commentaires, si et sont orthogonaux, vous avez le théorème de Pythagore :YZ

Y2+Z2=Y+Z2

Observez que est un produit interne valide et que est la norme induite par ce produit intérieur .Y = Y,ZE[YZ]Y=E[Y2]

Soit une variable aléatoire. Soit , Soit . Si et sont orthogonaux:Y = E [ X ] Z = X - E [ X ] Y ZXY=E[X]Z=XE[X]YZ

Y2+Z2=Y+Z2E[E[X]2]+E[(XE[X])2]=E[X2]E[X]2+Var[X]=E[X2]

Et il est facile de montrer que et sont orthogonaux sous ce produit intérieur:Z = X - E [ X ]Y=E[X]Z=XE[X]

Y,Z=E[E[X](XE[X])]=E[X]2E[X]2=0

L' une des jambes du triangle est , l'autre jambe est , et l'hypoténuse est . Et le théorème de Pythagore peut être appliqué car une variable aléatoire dégradée est orthogonale à sa moyenne.E [ X ] XXE[X]E[X]X


Remarque technique:

Y = E [ X ] 1 E [ X ] 1 1 = [ 1 , 1 , 1 , , 1 ] Y X 1Y dans cet exemple devrait vraiment être le vecteur , c'est-à-dire le scalaire fois le vecteur constant (par exemple dans le cas de résultats finis discrets). est la projection vectorielle de sur le vecteur constant .Y=E[X]1E[X]11=[1,1,1,,1]YX1

Exemple simple

Considérons le cas où est une variable aléatoire de Bernoulli où . Nous avons:p = .2Xp=.2

X=[10]P=[.2.8]E[X]=iPiXi=.2

Y=E[X]1=[.2.2]Z=XE[X]=[.8.2]

Et l'image est: enter image description here

La magnitude au carré du vecteur rouge est la variance de , la magnitude au carré du vecteur bleu est , et la magnitude au carré du vecteur jaune est .E [ X ] 2 E [ X 2 ]XE[X]2E[X2]

RAPPELEZ - VOUS bien que ces grandeurs, l'orthogonalité etc ... ne sont pas en ce qui concerne le produit scalaire usuel mais le produit intérieur . La magnitude du vecteur jaune n'est pas 1, elle est de 0,2.i P i Y i Z iiYiZiiPiYiZi

Le vecteur rouge et le vecteur bleu sont perpendiculaires sous le produit intérieur mais ils ne sont pas perpendiculaires dans l'intro, sens de la géométrie au lycée. N'oubliez pas que nous n'utilisons pas le produit scalaire habituel comme produit interne!Z = X - E [ X ] i P i Y i Z i i Y i Z iY=E[X]Z=XE[X]iPiYiZiiYiZi


C'est vraiment bien!
Antoni Parellada

1
Bonne réponse (+1), mais il manque un chiffre, et cela pourrait aussi être un peu déroutant pour OP parce que votre Z est leur X ...
amibe dit Reinstate Monica

@MatthewGunn, excellente réponse. vous pouvez vérifier ma réponse ci-dessous pour une représentation où l'orthogonalité est au sens euclidien.
YBE

Je déteste être obtus, mais j'ai du mal à garder , et la direction de la logique droite («parce que» vient à des endroits qui n'ont pas de sens pour moi). Il semble que de nombreux faits (bien étayés) soient énoncés au hasard. Dans quel espace se trouve le produit intérieur? Pourquoi 1 ? V a r ( X )ZVar(X)
Mitch

@Mitch L'ordre logique est le suivant: (1) Observez qu'un espace de probabilité définit un espace vectoriel; nous pouvons traiter des variables aléatoires comme des vecteurs. (2) Définissez le produit interne des variables aléatoires et comme . Dans un espace de produit interne, les vecteurs et sont définis comme orthogonaux si leur produit interne est nul. (3a) Soit une variable aléatoire. (3b) Soit et . (4) Observez que et définis sont orthogonaux. (5) Puisque etZ E [ Y Z ] Y Z X Y = E [ X ] Z = X - E [ X ] Y Z Y ZYZE[YZ]YZXY=E[X]Z=XE[X]YZYZsont orthogonaux, le théorème de Pythagore s'applique (6) Par algèbre simple, le théorème de Pythagore est équivalent à l'identité.
Matthew Gunn

7

Je vais opter pour une approche purement géométrique pour un scénario très spécifique. Considérons une variable aléatoire à valeurs discrètes prenant des valeurs avec des probabilités . Nous supposerons en outre que cette variable aléatoire peut être représentée dans comme un vecteur, . X{x1,x2}(p1,p2)R2X=(x1p1,x2p2)enter image description here

Notez que le carré de longueur de est qui est égal à . Ainsi, .Xx12p1+x22p2E[X2]X=E[X2]

Puisque , la pointe du vecteur trace en fait une ellipse. Cela devient plus facile de voir si l'on reparamétrise et en et . Par conséquent, nous avons et .p1+p2=1Xp1p2cos2(θ)sin2(θ)p1=cos(θ)p2=sin(θ)

Une façon de dessiner des ellipses est via un mécanisme appelé Trammel d'Archimède . Comme décrit dans le wiki: il se compose de deux navettes qui sont confinées ("trammélisées") à des canaux ou rails perpendiculaires, et une tige qui est attachée aux navettes par des pivots à des positions fixes le long de la tige. Lorsque les navettes se déplacent d'avant en arrière, chacune le long de son canal, l'extrémité de la tige se déplace sur un trajet elliptique. Ce principe est illustré dans la figure ci-dessous.

Analysons maintenant géométriquement une instance de ce trémail lorsque la navette verticale est en et la navette horizontale en formant un angle de . En raison de la construction, et , (ici est supposé wlog).ABθ|BX|=x2|AB|=x1x2θx1x2

enter image description here

Trouvons une ligne d'origine, , perpendiculaire à la tige. On peut montrer que . Pour cette variable aléatoire spécifique Par conséquent, la distance perpendiculairede l'origine à la tige est en fait égal à l'écart type, .OC|OC|=(x1x2)sin(θ)cos(θ)

Var(X)=(x12p1+x22p2)(x1p1+x2p2)2=x12p1+x22p2x12p12x22p222x1x2p1p2=x12(p1p12)+x22(p2p22)2x1x2p1p2=p1p2(x122x1x2+x22)=[(x1x2)p1p2]2=|OC|2
|OC|σ

Si nous calculons la longueur du segment de à : CX

|CX|=x2+(x1x2)cos2(θ)=x1cos2(θ)+x2sin2(θ)=x1p1+x2p2=E[X]

En appliquant le théorème de Pythagore dans le triangle OCX, nous nous retrouvons avec

E[X2]=Var(X)+E[X]2.

Pour résumer , pour un trémail qui décrit toutes les variables aléatoires à valeurs discrètes possibles prenant des valeurs , est la distance de l'origine à la pointe du mécanisme et l'écart type est la distance perpendiculaire à la tige.{x1,x2}E[X2]σ

Remarque : Notez que lorsque vaut ou , est complètement déterministe. Lorsque est nous nous retrouvons avec une variance maximale.θ0π/2Xθπ/4


1
+1 Belle réponse. Et multiplier les vecteurs par le carré des probabilités est une astuce cool / utile pour rendre la notion probabiliste habituelle d'orthogonalité orthogonale!
Matthew Gunn

Grands graphismes. Les symboles ont tous un sens (le trémail décrivant une ellipse puis le Thème de Pythagore s'applique) mais d'une manière ou d'une autre, je ne comprends pas intuitivement comment il donne une idée de la façon dont 'magiquement' il relie les moments (la propagation et le centre.
Mitch

considérer le trémail comme un processus qui définit toutes les variables aléatoires possibles . Lorsque la tige est horizontale ou verticale, vous avez un RV déterministe. Au milieu, il y a de l'aléatoire et il s'avère que dans mon cadre géométrique proposé, la façon dont un RV (son std) est mesuré exactement par la distance de la tige à l'origine. Il pourrait y avoir une relation plus profonde ici, car les courbes elliptiques connectent divers objets en mathématiques, mais je ne suis pas mathématicien, je ne peux donc pas vraiment voir cette connexion. (x1,x2)
YBE

3

Vous pouvez réorganiser comme suit:

Var(X)=E[X2](E[X])2E[X2]=(E[X])2+Var(X)

Ensuite, interprétez comme suit: le carré attendu d'une variable aléatoire est égal au carré de sa moyenne plus l'écart carré attendu de sa moyenne.


Oh. Huh. Facile. Mais les carrés semblent encore peu interprétés. Je veux dire que cela a du sens (en quelque sorte, extrêmement lâche) sans les carrés.
Mitch

3
Je ne suis pas vendu là-dessus.
Michael R. Chernick

1
Si le théorème de Pythagore s'applique, quel est le triangle avec quels côtés et comment les deux jambes sont-elles perpendiculaires?
Mitch

1

Désolé de ne pas avoir les compétences pour élaborer et fournir une réponse correcte, mais je pense que la réponse réside dans le concept de mécanique physique classique des moments, en particulier la conversion entre 0 moments "bruts" centrés et les moments centraux centrés moyens. Gardez à l'esprit que la variance est le moment central du deuxième ordre d'une variable aléatoire.


1

L'intuition générale est que vous pouvez relier ces moments en utilisant le théorème de Pythagore (PT) dans un espace vectoriel convenablement défini, en montrant que deux des moments sont perpendiculaires et le troisième est l'hypoténuse. La seule algèbre nécessaire est de montrer que les deux jambes sont bien orthogonales.

Pour les raisons suivantes, je suppose que vous vouliez dire des moyennes et des variances d'échantillon à des fins de calcul plutôt que des moments pour des distributions complètes. C'est:

E[X]=1nxi,mean,first central sample momentE[X2]=1nxi2,second sample moment (noncentral)Var(X)=1n(xiE[X])2,variance,second central sample moment

(où toutes les sommes sont supérieures à éléments).n

Pour référence, la preuve élémentaire de est juste une poussée de symbole: V a r ( X )Var(X)=E[X2]E[X]2

Var(X)=1n(xiE[X])2=1n(xi22E[X]xi+E[X]2)=1nxi22nE[X]xi+1nE[X]2=E[X2]2E[X]2+1nnE[X]2=E[X2]E[X]2

Il y a peu de sens ici, juste une manipulation élémentaire de l'algèbre. On peut remarquer que est une constante à l'intérieur de la sommation, mais c'est à peu près tout.E[X]

Maintenant, dans l'espace vectoriel / interprétation géométrique / intuition, ce que nous allons montrer est l'équation légèrement réarrangée qui correspond à PT, qui

Var(X)+E[X]2=E[X2]

Considérez donc , l'échantillon de n éléments, comme un vecteur dans R n . Et créons deux vecteurs E [ X ] 1 et X - E [ X ] 1 .XnRnE[X]1XE[X]1

Le vecteur a la moyenne de l'échantillon comme chacune de ses coordonnées.E[X]1

Le vecteur est x 1 - E [ X ] , ... , x n - E [ X ] .XE[X]1x1E[X],,xnE[X]

Ces deux vecteurs sont perpendiculaires car le produit scalaire des deux vecteurs s'avère être 0:

E[X]1(XE[X]1)=E[X](xiE[X])=(E[X]xiE[X]2)=E[X]xiE[X]2=nE[X]E[X]nE[X]2=0

Les deux vecteurs sont donc perpendiculaires, ce qui signifie qu'ils sont les deux jambes d'un triangle rectangle.

Puis par PT (qui tient dans ), la somme des carrés des longueurs des deux jambes est égale au carré de l'hypoténuse.Rn

Par la même algèbre utilisée dans la preuve algébrique ennuyeuse au sommet, nous avons montré que nous obtenons que est le carré du vecteur hypoténuse:E[X2]

où la quadrature est le produit scalaire (et c'est vraiment E [ x ] 1 et ( X - E [ X ] ) 2 est V a r ( X ) .(XE[X])2+E[X]2=...=E[X2]E[x]1(XE[X])2Var(X)

La partie intéressante de cette interprétation est la conversion d'un échantillon de éléments d'une distribution univariée en un espace vectoriel de n dimensions. Ceci est similaire à n échantillons bivariés interprétés comme réellement deux échantillons dans n variables.nnnn

Dans un sens, cela suffit, le triangle rectangle des vecteurs et apparaît comme l'hypotnénuse. Nous avons donné une interprétation (vecteurs) pour ces valeurs et montrons qu'elles correspondent. C'est assez cool, mais peu éclairant statistiquement ou géométriquement. Cela ne dirait pas vraiment pourquoi et ce serait beaucoup de machines conceptuelles supplémentaires pour, finalement, reproduire la preuve purement algébrique que nous avions déjà au début.E[X2]

Une autre partie intéressante est que la moyenne et la variance, bien qu'elles mesurent intuitivement le centre et la dispersion dans une dimension, sont orthogonales dans dimensions. Qu'est-ce que cela signifie, qu'ils sont orthogonaux? Je ne sais pas! Y a-t-il d'autres moments orthogonaux? Existe-t-il un système de relations plus large qui inclut cette orthogonalité? moments centraux vs moments non centraux? Je ne sais pas!n


Je m'intéresse également à une interprétation / intuition derrière l'équation de compromis de variance de biais superficiellement similaire. Quelqu'un a-t-il des indices là-bas?
Mitch

Soit la probabilité que l'état i se produise. Si p i = 1pii alorsipiXiYi=1pi=1n, c'est-à-dire queE[XY] est simplement le produit scalaire entreXetYdivisé parn. Siipi=1ipiXiYi=1niXiYiE[XY]XYn , ce que j'ai utilisé comme produit intérieur (E[XY]=ipiXiYi) est fondamentalement le produit scalaire divisé parn. Toute cette interprétation pythagoricienne doit encore utiliser le produit interne particulierE[XY](bien qu'il soit algébriquement proche du produit scalaire classique pour une mesure de probabilitéPtelle queipi=1ipi=1nE[XY]=ipiXiYinE[XY]P ). ipi=1n
Matthew Gunn

x^y^x^i=xipiy^i=xipix^y^=ixipiyipi=ipixiyi=E[xy].The dot product of x^ and y^ corresponds to E[xy] (which is what I used as an inner product).
Matthew Gunn
En utilisant notre site, vous reconnaissez avoir lu et compris notre politique liée aux cookies et notre politique de confidentialité.
Licensed under cc by-sa 3.0 with attribution required.