On ne peut que deviner ce que pourrait signifier un auteur en particulier par «variance partagée». Nous pourrions espérer circonscrire les possibilités en considérant quelles propriétés ce concept devrait (intuitivement) avoir. On sait que "les variances s'ajoutent": la variance d'une sommeX+ε est la somme des variances de X et ε quand X et εont une covariance nulle. Il est naturel de définir la "variance partagée" desX la somme étant la fraction de la variance de la somme représentée par la variance de X. Cela suffit pour impliquer les écarts de partage des deux variables aléatoiresX et Y doit être le carré de leur coefficient de corrélation.
Ce résultat donne un sens à l'interprétation d'un coefficient de corrélation au carré comme une "variance partagée": dans un sens approprié, c'est vraiment une fraction d'une variance totale qui peut être affectée à une variable de la somme.
Les détails suivent.
Principes et leurs implications
Bien sûr si Y=X, leur "variance partagée" (appelons-la désormais "SV") devrait être de 100%. Mais siY et Xsont juste des versions échelonnées ou décalées les unes des autres? Par exemple, siY représente la température d'une ville en degrés F et Xreprésente la température en degrés C? Je voudrais suggérer que dans de tels casX et Y devrait toujours avoir 100% SV, de sorte que ce concept restera significatif quelle que soit la façon dont X et Y pourrait être mesurée:
SV(α+βX,γ+δY)=SV(X,Y)(1)
pour tous les nombres α,γ et des nombres non nuls β,δ.
Un autre principe pourrait être que lorsque ε est une variable aléatoire indépendante de X, alors la variance de X+ε peut être décomposé de façon unique en deux parties non négatives,
Var(X+ε)=Var(X)+Var(ε),
suggérant que nous essayons de définir SV dans ce cas spécial comme
SV(X,X+ε)=Var(X)Var(X)+Var(ϵ).(2)
Étant donné que tous ces critères ne sont que du second ordre - ils ne concernent que les premier et deuxième moments des variables sous la forme d'attentes et de variances - assouplissons l'exigence selon laquelle X et εêtre indépendant et exiger seulement qu'ils ne soient pas corrélés . Cela rendra l'analyse beaucoup plus générale qu'elle ne le serait autrement.
Les resultats
Ces principes - si vous les acceptez - conduisent à un concept unique, familier et interprétable. L'astuce sera de réduire le cas général au cas particulier d'une somme, où l'on pourra appliquer la définition(2).
Donné (X,Y), nous essayons simplement de décomposer Y dans une version évoluée et décalée de X plus une variable qui n'est pas corrélée avec X: c'est-à-dire, trouvons (si c'est possible) des constantes α et β et une variable aléatoire ϵ Pour qui
Y=α+βX+ε(3)
avec Cov(X,ε)=0. Pour que la décomposition ait une chance d'être unique, nous devons exiger
E[ε]=0
pour qu'une fois β est trouvé, α est déterminé par
α=E[Y]−βE[X].
Cela ressemble énormément à une régression linéaire et c'est effectivement le cas. Le premier principe dit que nous pouvons redimensionnerX et Y avoir une variance unitaire (en supposant qu'ils ont chacun une variance non nulle) et que lorsque cela est fait, les résultats de régression standard affirment la valeur de β dans (3) est la corrélation de X et Y:
β=ρ(X,Y).(4)
De plus, en prenant les variances de (1) donne
1=Var(Y)=β2Var(X)+Var(ε)=β2+Var(ε),
impliquant
Var(ε)=1−β2=1−ρ2.(5)
par conséquent
SV(X,Y)=SV(X,α+βX+ε)=SV(βX,βX+ε)=Var(βX)Var(βX)+Var(ϵ)=β2β2+(1−β2)=β2=ρ2(Model 3)(Property 1)(Definition 2)(Result 5)(Relation 4).
Notez que parce que le coefficient de régression sur Y (lorsqu'il est normalisé en fonction de la variance unitaire) est ρ(Y,X)=ρ(X,Y), la "variance partagée" elle-même est symétrique, justifiant une terminologie qui suggère l'ordre de X et Y n'a pas d'importance:
SV(X,Y)=ρ(X,Y)2=ρ(Y,X)2=SV(Y,X).