Comment la somme de deux variables peut-elle expliquer plus de variance que les variables individuelles?

13

J'obtiens des résultats déroutants pour la corrélation d'une somme avec une troisième variable lorsque les deux prédicteurs sont corrélés négativement. Qu'est-ce qui cause ces résultats déroutants?

Exemple 1: corrélation entre la somme de deux variables et une troisième variable

Considérons la formule 16.23 à la page 427 du texte de Guildford de 1965, illustrée ci-dessous.

Constat étonnant: si les deux variables sont en corrélation de 0,2 avec la troisième variable et de -7 avec la corrélation, la formule donne une valeur de 0,52. Comment la corrélation du total avec la troisième variable peut-elle être de 0,52 si les deux variables ne sont chacune corrélées que de 0,2 avec la troisième variable?

Exemple 2: Quelle est la corrélation multiple entre deux variables et une troisième variable?

Considérez la formule 16.1 à la page 404 du texte de Guildford de 1965 (illustré ci-dessous).

Constat troublant: Même situation. Si les deux variables sont en corrélation de 0,2 avec la troisième variable et en corrélation de -7 entre elles, la formule donne une valeur de 0,52. Comment la corrélation du total avec la troisième variable peut-elle être de 0,52 si les deux variables ne sont chacune corrélées que de 0,2 avec la troisième variable?

J'ai essayé une petite simulation de Monte Carlo rapide et cela confirme les résultats des formules de Guilford.

Mais si les deux prédicteurs prédisent chacun 4% de la variance de la troisième variable, comment une somme d'entre eux peut-elle prédire 1/4 de la variance?

Source: Statistiques fondamentales en psychologie et en éducation, 4e éd., 1965.

CLARIFICATION

La situation à laquelle je fais face implique de prédire les performances futures des individus en fonction de la mesure de leurs capacités actuelles.

Les deux diagrammes de Venn ci-dessous montrent ma compréhension de la situation et visent à clarifier ma perplexité.

Ce diagramme de Venn (Fig 1) reflète l'ordre zéro r = .2 entre x1 et C. Dans mon domaine, il existe de nombreuses variables prédictives qui prédisent modestement un critère.

Ce diagramme de Venn (figure 2) reflète deux de ces prédicteurs, x1 et x2, chacun prédisant C à r = .2 et les deux prédicteurs corrélés négativement, r = -. 7.

J'ai du mal à imaginer une relation entre les deux prédicteurs r = .2 qui les auraient ensemble à prédire 25% de la variance de C.

Je cherche de l'aide pour comprendre la relation entre x1, x2 et C.

Si (comme suggéré par certains en réponse à ma question) x2 agit comme une variable de suppression pour x1, quelle zone du deuxième diagramme de Venn est supprimée?

Si un exemple concret serait utile, nous pouvons considérer x1 et x2 comme deux capacités humaines et C comme un GPA de 4 ans, 4 ans plus tard.

J'ai du mal à imaginer comment une variable de suppression pourrait faire en sorte que la variance expliquée de 8% des deux r = 0 d'ordre zéro augmente et explique 25% de la variance de C.Un exemple concret serait une réponse très utile.

correlation multiple-regression

— Joel W.
source

Il existe une vieille règle empirique dans les statistiques selon laquelle la variance de la somme d'un ensemble de variables indépendantes est égale à la somme de leurs variances.

— Mike Hunter

@DJohnson. Quel est le lien entre votre commentaire et la question posée?

— Joel W.20

Désolé, je ne comprends pas la question. Pour moi, il est évident que cela se rapporte. De plus, c'est un commentaire qui n'est ni éligible à la prime ni nécessitant une élaboration plus approfondie.

— Mike Hunter

1

@DJohnson. Quel est le lien entre votre commentaire et la question posée? Pour moi, il n'est pas évident de savoir comment cela se rapporte.

— Joel W.20

2

Votre question sur la signification de N vues pourrait obtenir une meilleure réponse sur le site Meta CV.

— mdewey

3

Cela peut se produire lorsque les deux prédicteurs contiennent tous deux un facteur de nuisance élevé, mais avec un signe opposé, donc lorsque vous les additionnez, la nuisance s'annule et vous obtenez quelque chose de beaucoup plus proche de la troisième variable.

Illustrons avec un exemple encore plus extrême. Supposons que sont des variables aléatoires normales normales indépendantes. Maintenant, laisse $X, Y \sim N(0,1)$

$A = X$

$B = -X + 0.00001Y$

Supposons que soit votre troisième variable, sont vos deux prédicteurs et est une variable latente dont vous ne savez rien. La corrélation de A avec Y est 0, et la corrélation de B avec Y est très faible, proche de 0,00001. * Mais la corrélation de $Y$ $A, B$ $X$ $A+B$ avec $Y$ est 1.

* Il y a une toute petite correction pour que l'écart-type de B soit un peu plus de 1.

— Paul
source

Ce type de situation se pose-t-il jamais en sciences sociales?

— Joel W.

1

Dans le jargon des sciences sociales, il s'agit essentiellement d'un effet fort confondant un effet faible d'une manière particulière. Je ne suis pas un expert en sciences sociales, mais je ne peux pas imaginer qu'il soit difficile de trouver un exemple de cela.

— Paul

Pourriez-vous avoir des exemples autres que les sciences physiques?

— Joel W.

La relation que vous décrivez peut-elle être représentée dans un diagramme de Venn?

— Joel W.

Je ne trouverais pas personnellement un diagramme de Venn utile ici, mais si vous devez, je dessinerais B comme un rectangle, puis je le diviserais en deux sous-rectangles, un gros gros A et un petit maigre Y. La sommation A et B est annuler la grande partie A et laisser la petite partie Y.

— Paul

10

Il peut être utile de concevoir les trois variables comme étant des combinaisons linéaires d'autres variables non corrélées. Pour améliorer notre compréhension, nous pouvons les représenter géométriquement, travailler avec eux algébriquement et fournir des descriptions statistiques à notre guise.

Considérons donc trois variables de moyenne zéro non corrélées, à variance unitaire , et $X$ $Y$ $Z$ . À partir de ceux-ci, construisez ce qui suit:

U = X, V = (- 7 X + \sqrt{51} Y) / 10; W = (\sqrt{3} X + \sqrt{17} Y + \sqrt{55} Z) / \sqrt{75} .

$U = X,\quad V = (- 7 X + \sqrt{51}Y )/10;\quad W=(\sqrt{3} X + \sqrt{17} Y + \sqrt{55}Z)/\sqrt{75}.$

Explication géométrique

Le graphique suivant présente tout ce dont vous avez besoin pour comprendre les relations entre ces variables.

Ce diagramme pseudo-3D montre , , et dans le système de coordonnées Les angles entre les vecteurs reflètent leurs corrélations (les coefficients de corrélation sont les cosinus des angles). La grande corrélation négative entre et se reflète dans l'angle obtus entre eux. Les petites corrélations positives de et avec $U$ $V$ $W$ $U+V$ $X,Y,Z$ $U$ $V$ $U$ $V$ se reflètent par leur quasi-perpendicularité. Cependant, la somme de et tombe directement sous $W$ $U$ $V$ $W$ , faisant un angle aigu (environ 45 degrés): il y a la corrélation positive étonnamment élevée.

Calculs algébriques

Pour ceux qui veulent plus de rigueur, voici l'algèbre pour sauvegarder la géométrie dans le graphique.

Toutes ces racines carrées sont là pour faire $U$ , et aient aussi des variances unitaires: cela facilite le calcul de leurs corrélations, car les corrélations seront égales aux covariances. Donc $V$ $W$

Cor (U, V) = Cov (U, V) = E (U V) = E (\sqrt{51} X Y - 7 X^{2}) / 10 = - 7 / 10 = - 0.7

$\operatorname{Cor}(U, V) = \operatorname{Cov}(U,V) = \mathbb{E}(UV) = \mathbb{E}(\sqrt{51}XY- 7 X^2)/10 = -7/10 = -0.7$

parce que et sont pas corrélés. De même, $X$ $Y$

Cor (U, W) = \sqrt{3 / 75} = 1 / 5 = 0.2

$\operatorname{Cor}(U,W) = \sqrt{3/75} = 1/5 = 0.2$

et

Cor (V, W) = (- 7 \sqrt{3} + \sqrt{15} \sqrt{17}) / (10 \sqrt{75}) = 1 / 5 = 0.2.

$\operatorname{Cor}(V,W) = (-7\sqrt{3} + \sqrt{15}\sqrt{17})/(10\sqrt{75}) = 1/5 = 0.2.$

Finalement,

Cor (U + V, W) = \frac{Cov (U + V, W)}{\sqrt{Var (U + V) Var (W)}} = \frac{1 / 5 + 1 / 5}{\sqrt{Var (U) + Var (V) + 2 Cov (U, V)}} = \frac{2 / 5}{\sqrt{1 + 1 - 2 (7 / 10)}} = \frac{2 / 5}{\sqrt{3 / 5}} \approx 0.5164.

$\operatorname{Cor}(U+V,W) = \frac{\operatorname{Cov}(U+V,W)}{\sqrt{\operatorname{Var}(U+V)\operatorname{Var}(W)}} = \frac{1/5 + 1/5}{\sqrt{\operatorname{Var}(U) + \operatorname{Var}(V) + 2\operatorname{Cov}(U,V)}} = \frac{2/5}{\sqrt{1 + 1 - 2(7/10)}} = \frac{2/5}{\sqrt{3/5}}\approx 0.5164.$

Par conséquent, ces trois variables ont les corrélations souhaitées.

Explication statistique

Maintenant, nous pouvons voir pourquoi tout fonctionne comme ça:

et ont une forte corrélation négative de $U$ $V$ parce que est proportionnelle à lanégative de plus un peu« bruit » sous la forme d'un petit multiple de . $-7/10$ $V$ $U$ $Y$
et ont une faible corrélation positive de $U$ $W$ parce que comprend un petit multiple de plus beaucoup de bruit sous la forme de multiples de et . $1/5$ $W$ $U$ $Y$ $Z$
$V$ et ont une faible corrélation positive de parce que (lorsqu'il est multiplié par $W$ $1/5$ $W$ , qui ne changera aucune corrélation) est la somme de trois choses: $\sqrt{75}$
- , qui est positivement corrélé avec $\sqrt{17}Y$ $V$ ;
- , dontlacorrélationnégativeavec $-\sqrt{3}X$ $V$ réduit la corrélation globale;
- et un multiple de qui introduit beaucoup de bruit. $Z$
Néanmoins, est plutôt positivement corrélé aveccar il s'agit d'un multiple de cette partie de $U+V = (3X + \sqrt{51}Y)/10 = \sqrt{3/100}(\sqrt{3}X + \sqrt{17}Y)$ $W$ $W$ qui ne comprend pas . $Z$

— whuber
source

Existe-t-il un moyen de montrer cela dans un diagramme de Venn? Malgré le calcul, je ne vois toujours pas la logique de la somme de deux variables expliquant 25 +% de la variance d'une troisième variable lorsque chacune des deux variables qui entrent dans la somme prédisent mais 4% de la variance de cette troisième variable . Comment la variance expliquée de 8% peut-elle devenir la variance expliquée de 25% simplement en ajoutant les deux variables?

— Joel

Existe-t-il également des applications pratiques de ce phénomène étrange?

— Joel W.15

Si un diagramme de Venn n'est pas approprié pour représenter la variance expliquée, pouvez-vous me dire pourquoi il est inapproprié?

— Joel

@JoelW. La bonne réponse ici touche pourquoi les diagrammes de Venn ne sont pas à la hauteur pour illustrer ce phénomène (vers la fin de la réponse): stats.stackexchange.com/a/73876/5829

— Jake Westfall

Joel, les Cohen ont utilisé un diagramme de type Venn qu'ils ont appelé "Ballantine" pour analyser les variances. Voir ww2.amstat.org/publications/jse/v10n1/kennedy.html par exemple. En ce qui concerne les applications pratiques, vous devez vous poser la question inverse: quelles applications de la variance et des décompositions de la variance ne sont pas pratiques?

— whuber

5

Un autre exemple simple:

Soit $z \sim \mathcal{N}(0,1)$
Soit $x_1 \sim \mathcal{N}(0,1)$
$x_2 = z - x_1$ $z = x_1 + x_2$

Alors:

$\mathrm{Corr}(z, x_1) = 0$
$\mathrm{Corr}(z, x_2) \approx .7$
$\mathrm{Corr}(z, x_1 + x_2) = 1$

Géométriquement, ce qui se passe est comme dans le graphique de WHuber. Conceptuellement, cela pourrait ressembler à ceci:

(At some point in your math career, it can be enlightening to learn that random variables are vectors, $E[XY]$ is an inner product, and hence correlation is the cosine of the angle between the two random variables.)

$x_1$ and $z$ are uncorrelated, hence they're orthogonal. Let $\theta$ denote the angle between two vectors.

$\mathrm{Corr}(z, x_1) = \cos \theta_{zx_1} = 0 \quad \quad \theta_{z,x_1} = \frac{\pi}{2}$
$\mathrm{Corr}(z, x_2) = \cos \theta_{zx_2} \approx .7 \quad \quad \theta_{z,x_2} = \frac{\pi}{4}$
$\mathrm{Corr}(z, x_1 + x_2) = \cos \theta_{z,x_1+x_2} = 1 \quad \quad \theta_{z, x_1 + x_2} = 0$

To connect to the discussion in the comments Flounderer's answer, think of $z$ as some signal, $-x_1$ as some noise, and noisy signal $x_2$ as the sum of signal $z$ and noise $-x_1$ . Adding $x_1$ to $x_2$ is equivalent to subtracting noise $-x_1$ from the noisy signal $x_2$ .

— Matthew Gunn
source

(+1) Nice example!

— user795305

Please explain the premises of your answer. After positing z = x1 + x2, why say “then Corr(z,x1)=0”? Are you saying that Corr(z,x1)=0 follows from your first Let statement, or is the correlation of zero an additional assumption? If it is an additional assumption, why does the situation in the original question require that additional assumption?

— Joel W.

@JoelW. I'm saying

z

$z$ is a random variable following the standard normal distribution and

x_{1}

$x_1$ is an independent random variable that also follows the standard normal distribution.

z

$z$ and

x_{1}

$x_1$ are independent, hence their correlation is precisely 0. Then compute

z - x_{1}

$z - x_1$ and call that

x_{2}

$x_2$ .

— Matthew Gunn

@MatthewGunn. Your third Let says z=x1+x2. That seems to violate your first two Lets that say that z and x1 are independent.

— Joel W.

1

@JoelW. I do not agree because that statement is not true. Seeing

z = x_{1} + x_{2}

$z = x_1 + x_2$ implies nothing about independence between

z

$z$ and

x_{1}

$x_1$ .

— Matthew Gunn

3

Addressing your comment:

Despite the math, I still do not see the logic of the sum of two variables explaining 25+% of the variance of a third variable when each off the two variables that go into the sum predict but 4% of the variance of that third variable. How can 8% explained variance become 25% explained variance just by adding the two variables?

The issue here seems to be the terminology "variance explained". Like a lot of terms in statistics, this has been chosen to make it sound like it means more than it really does.

Here's a simple numerical example. Suppose some variable $Y$ has the values

y = (6, 7, 4, 8, 9, 6, 6, 3, 5, 10)

$y = (6, 7, 4, 8, 9, 6, 6, 3, 5, 10)$

and $U$ is a small multiple of $Y$ plus some error $R$ . Let's say the values of $R$ are much larger than the values of $Y$ .

r = (- 20, - 80, 100, 90, 50, 70, 40, 30, 40, 60)

$r = (-20, -80, 100, 90, 50, 70, 40, 30, 40, 60)$

and $U = R + 0.1Y$ , so that

u = (- 19.4, - 79.3, 100.4, 90.8, 50.9, 70.6, 40.6, 30.3, 40.5, 61.0)

$u = (-19.4, -79.3, 100.4, 90.8, 50.9, 70.6, 40.6, 30.3, 40.5, 61.0)$

and suppose another variable $V=-R+0.1Y$ so that

v = (20.6, 80.7, - 99.6, - 89.2, - 49.1, - 69.4, - 39.4, - 29.7, - 39.5, - 59.0)

$v = (20.6, 80.7, -99.6, -89.2, -49.1, -69.4, -39.4, -29.7, -39.5, -59.0)$

Then both $U$ and $V$ have very small correlation with $Y$ , but if you add them together then the $r$ 's cancel and you get exactly $0.2Y$ , which is perfectly correlated with $Y$ .

In terms of variance explained, this makes perfect sense. $Y$ explains a very small proportion of the variance in $U$ because most of the variance in $U$ is due to $R$ . Similarly, most of the variance in $V$ is due to $R$ . But $Y$ explains all of the variance in $U+V$ . Here is a plot of each variable:

However, when you try to use the term "variance explained" in the other direction, it becomes confusing. This is because saying that something "explains" something else is a one-way relationship (with a strong hint of causation). In everyday language, $A$ can explain $B$ without $B$ explaining $A$ . Textbook authors seem to have borrowed the term "explain" to talk about correlation, in the hope that people won't realise that sharing a variance component isn't really the same as "explaining".

— Flounderer
source

@naught101 has created some figures to illustrate your variables, Flounderer. You might want to see if including them appeals to you.

— gung - Reinstate Monica

Sure, edit it however you like. I can't actually view imgur at work but I'm sure it will be fine!

— Flounderer

I rejected the suggestion, b/c I didn't see that he had contacted you here. You can approve it by going to the suggested edit queue, though.

— gung - Reinstate Monica

The example you provide is interesting, if carefully crafted, but the situation I presented is more general (with the numbers not carefully chosen) and based on 2 variables N(0,1). Even if we change the terminology from "explains" to "shared", the question remains. How can 2 random variables, each with 4% shared variance with a third variable, be combined in terms of a simple sum that, according to the formula, has 25% shared variance with a third variable? Also, if the goal is prediction, are there any real-world practical applications of this strange increase in shared variance?

— Joel W.

Well, anywhere in electronics when you have (loud noise + weak signal) + (-loud noise) = weak signal, you would be applying this. For example, noise-cancelling headphones.

— Flounderer