Corrélation significative dans chaque groupe mais non significative dans l'ensemble?


9

Supposons que l' on teste la corrélation de Pearson entre les variables et y dans les groupes A et B . Est-il possible que la corrélation ( x , y ) soit significative dans chacun de A et B , mais non significative lorsque les données des deux groupes sont combinées? Dans ce cas, pourriez-vous s'il vous plaît fournir une explication à cela.XyUNEB(X,y)UNEB

Réponses:


21

Oui, c'est possible et cela pourrait se produire de toutes sortes de façons. Un exemple évident est lorsque l'appartenance à A et B est choisie d'une manière qui reflète les valeurs de x et y. D'autres exemples sont possibles, par exemple le commentaire de @ Macro suggère une possibilité alternative.

Considérez l'exemple ci-dessous, écrit en R. x et y sont des variables normales standard iid, mais si je les alloue à des groupes en fonction des valeurs relatives de x et y, j'obtiens la siutation que vous nommez. Au sein du groupe A et du groupe B, il existe une forte corrélation statistiquement significative entre x et y, mais si vous ignorez la structure de regroupement, il n'y a pas de corrélation.

entrez la description de l'image ici

> library(ggplot2)
> x <- rnorm(1000)
> y <- rnorm(1000)
> Group <- ifelse(x>y, "A", "B")
> cor.test(x,y)

        Pearson's product-moment correlation

data:  x and y 
t = -0.9832, df = 998, p-value = 0.3257
alternative hypothesis: true correlation is not equal to 0 
95 percent confidence interval:
 -0.09292  0.03094 
sample estimates:
     cor 
-0.03111 

> cor.test(x[Group=="A"], y[Group=="A"])

        Pearson's product-moment correlation

data:  x[Group == "A"] and y[Group == "A"] 
t = 11.93, df = 487, p-value < 2.2e-16
alternative hypothesis: true correlation is not equal to 0 
95 percent confidence interval:
 0.4040 0.5414 
sample estimates:
   cor 
0.4756 

> cor.test(x[Group=="B"], y[Group=="B"])

        Pearson's product-moment correlation

data:  x[Group == "B"] and y[Group == "B"] 
t = 9.974, df = 509, p-value < 2.2e-16
alternative hypothesis: true correlation is not equal to 0 
95 percent confidence interval:
 0.3292 0.4744 
sample estimates:
   cor 
0.4043 
> qplot(x,y, color=Group)

+1. Ceci est un exemple très intelligent qui ne m'était pas venu à l'esprit.
Macro

13

Une possibilité est que les effets vont dans des directions différentes dans chaque groupe et soient annulés lorsque vous les agrégez . Cela est également lié à la façon dont, lorsque vous omettez un terme d'interaction important dans un modèle de régression, les principaux effets peuvent être trompeurs.

UNEyjeXje

E(yje|Xje,group UNE)=1+Xje

B

E(yje|Xje,group B)=1-Xje

P(group UNE)=1-P(group B)=p
E(yje|Xje)

E(yje|Xje)=E(E(yje|Xje,group))=p(1+Xje)+(1-p)(1-Xje)=p+pXje+1-Xje-p+pXje=1-Xje(2p-1)

p=1/2E(yje|Xje)=1XjeXjeyje

p

Remarque: Avec des erreurs normales, la signification d'un coefficient de régression linéaire est équivalente à la signification de la corrélation de Pearson, donc cet exemple met en évidence une explication de ce que vous voyez.

En utilisant notre site, vous reconnaissez avoir lu et compris notre politique liée aux cookies et notre politique de confidentialité.
Licensed under cc by-sa 3.0 with attribution required.