Pouvez-vous expliquer le paradoxe de Simpson avec des équations, au lieu de tableaux de contingence?


14

Je n'ai probablement pas une compréhension claire du paradoxe de Simpson . Informellement, je sais que la moyenne de la réponse Y1, regroupée sur tous les niveaux possibles du facteur A, peut être supérieure à la moyenne de la réponse Y2 sur tous les niveaux de A, même si la moyenne de Y1 pour chaque niveau de A (chaque groupe) est toujours inférieur à la moyenne correspondante de Y2. J'ai lu des exemples, mais je suis toujours surpris chaque fois que je le vois, peut-être parce que je n'apprends pas bien par des exemples spécifiques: j'ai du mal à les généraliser. J'apprends mieux, et préfère voir une explication dans les formules. Pouvez-vous expliquer le paradoxe qui repose sur des équations plutôt que sur des tables de comptage?

De plus, je pense que la raison de ma surprise est que je pourrais inconsciemment faire des hypothèses sur les moyennes impliquées dans le paradoxe, ce qui n'est peut-être pas vrai en général. Peut-être que j'oublie de pondérer par le nombre d'échantillons dans chaque groupe? Mais alors, je voudrais voir une équation qui me montre que l'estimation de la moyenne totale est plus précise si je pondère chaque moyenne de groupe par le nombre d'échantillons dans chaque groupe, car (si c'est vrai) ce n'est pas évident pour moi en général. Naïvement, je penserais que l'estimation de a une erreur standard plus faible lorsque j'ai plus d'échantillons, indépendamment de la pondération.E[Y1]


1
J'ai un poste connexe ici avec des simulations. La simulation peut vous être utile pour comprendre le paradoxe de simpson
Haitao Du

voici une machine produisant à la demande les paradoxes de Simpson!
kjetil b halvorsen

Réponses:


11

Voici une approche générale pour comprendre le paradoxe de Simpson algébriquement pour les données de comptage.

Supposons que nous ayons des données de survie pour une exposition et que nous créons un tableau de contingence 2x2. Pour garder les choses simples, nous aurons les mêmes comptes dans chaque cellule. Nous pourrions détendre cela, mais cela rendrait l'algèbre assez désordonnée.

DiedSurvivedDeath RateExposedXX0.5UnexposedXX0.5

Dans ce cas, le taux de mortalité est le même dans les groupes exposés et non exposés.

Maintenant, si nous divisons les données, disons en un groupe pour les femmes et un autre groupe pour les hommes, nous obtenons 2 tableaux, avec les nombres suivants:

Hommes:

DiedSurvivedDeath RateExposedXaXbaa+bUnexposedXcXdcc+d

et pour les femmes:

DiedSurvivedDeath RateExposedX(a1)X(b1)a1a+b2UnexposedX(c1)X(d1)c1c+d2

où sont les proportions de chaque cellule du tableau de données agrégées qui sont des hommes.a,b,c,d[0,1]

Le paradoxe de Simpson se produit lorsque le taux de mortalité des hommes exposés est supérieur à celui des hommes non exposés ET que le taux de mortalité des femmes exposées est supérieur au taux de mortalité des femmes non exposées. Alternativement, cela se produira également lorsque le taux de mortalité des hommes exposés est inférieur au taux de mortalité des hommes non exposés ET que le taux de mortalité des femmes exposées est inférieur au taux de mortalité des femmes non exposées. C'est quand

(aa+b<cc+d) and (a1a+b2<c1c+d2)

Or 

(aa+b>cc+d) and (a1a+b2>c1c+d2)

Comme exemple concret, soit , et . Ensuite, nous aurons le paradoxe de Simpson lorsque:X=100a=0.5,b=0.8,c=0.9

(0.50.8+0.9<0.90.9+d) and (0.510.5+0.82<0.910.9+d2)

(9<d<1.44) and (0.96<d<1.1)

D'où nous concluons que d doit se trouver dans(0.96,1]

Le 2ème ensemble d'inégalités donne:

(0.50.8+0.9>0.90.9+d) and (0.510.5+0.82>0.910.9+d2)

(d<0.9 or d>1.44) and (0.96<d or d>1.44)

qui n'a pas de solution pourd[0,1]

Donc, pour les trois valeurs que nous avons choisies pour et , pour invoquer le paradoxe de Simpson, doit être supérieur à 0,96. Dans le cas où la valeur était de nous obtiendrions un taux de mortalité pour les hommes dea,b,cd0.99

0.5/(0.5+0.8)=38% in the exposed group
0.9/(0.9+0.99)=48% in the unexposed group

et pour les femmes:

(0.51)/(0.5+0.82)=71% in the exposed group
(0.91)/(0.9+0.992)=91% in the unexposed group

Ainsi, les hommes ont un taux de mortalité plus élevé dans le groupe non exposé que dans le groupe exposé, et les femmes ont également un taux de mortalité plus élevé dans le groupe non exposé que dans le groupe exposé, mais les taux de mortalité dans les données agrégées sont les mêmes pour les groupes exposés et non exposés. .


16

Supposons que nous ayons des données sur 2 variables, et , pour 2 groupes, A et B.xy

Les données du groupe A sont telles que la droite de régression ajustée est

y=11x

avec des valeurs moyennes de et pour et respectivement.29xy

Les données du groupe B sont telles que la droite de régression ajustée est

y=25x

avec des valeurs moyennes de et pour et respectivement.1114xy

Ainsi, le coefficient de régression pour est dans les deux groupes.x1

De plus, qu'il y ait un nombre égal d'observations dans chaque groupe, les deux et y étant distribués symétriquement. Nous souhaitons maintenant calculer la droite de régression globale. Pour simplifier les choses, nous supposerons que la droite de régression globale passe par les moyennes de chaque groupe, c'est-à-dire pour le groupe A et pour le groupe B. Ensuite, il est facile de voir que la régression globale la pente de la ligne doit être qui est le coefficient de régression global pour . Ainsi, nous voyons le paradoxe de Simpson en action - nous avons une association négative de avec(2,9)(11,14)(149)/(112)=0.55xxydans chaque groupe individuellement, mais une association positive globale lorsque les données sont agrégées. Nous pouvons facilement le démontrer dans R comme suit:

rm(list=ls())
Xa <- c(1,2,3)
Ya <- c(10,9,8)
m0 <- lm(Ya~Xa)
plot(Xa,Ya, xlim=c(0,20), ylim=c(5,20), col="red")
abline(m0, col="red")

Xb <- c(10,11,12)
Yb <- c(15,14,13)
m1 <- lm(Yb~Xb)
points(Xb,Yb, col="blue")
abline(m1, col="blue")

X <- c(Xa,Xb)
Y <- c(Ya,Yb)
m2 <- lm(Y~X)
abline(m2, col="black")

entrez la description de l'image ici

Les points rouges et la ligne de régression sont du groupe A, les points bleus et la ligne de régression sont du groupe B et la ligne noire est la ligne de régression globale.


Salut, merci pour la réponse, mais ceci est encore un autre exemple spécifique du paradoxe de Simpson. J'ai spécifiquement demandé quelque chose sous la forme d'un théorème ou d'un ensemble d'équations, une approche plus abstraite et générale. Quoi qu'il en soit, puisqu'il n'y a pas d'autres réponses, j'étudierai votre exemple et si je pense que cela m'aide à généraliser le concept, j'accepterai la réponse.
DeltaIV

3
@DeltaIV J'ai écrit une nouvelle réponse en utilisant des arguments purement algébriques.
Robert Long
En utilisant notre site, vous reconnaissez avoir lu et compris notre politique liée aux cookies et notre politique de confidentialité.
Licensed under cc by-sa 3.0 with attribution required.