Voici une approche générale pour comprendre le paradoxe de Simpson algébriquement pour les données de comptage.
Supposons que nous ayons des données de survie pour une exposition et que nous créons un tableau de contingence 2x2. Pour garder les choses simples, nous aurons les mêmes comptes dans chaque cellule. Nous pourrions détendre cela, mais cela rendrait l'algèbre assez désordonnée.
ExposedUnexposedDiedXXSurvivedXXDeath Rate0.50.5
Dans ce cas, le taux de mortalité est le même dans les groupes exposés et non exposés.
Maintenant, si nous divisons les données, disons en un groupe pour les femmes et un autre groupe pour les hommes, nous obtenons 2 tableaux, avec les nombres suivants:
Hommes:
ExposedUnexposedDiedXaXcSurvivedXbXdDeath Rateaa+bcc+d
et pour les femmes:
ExposedUnexposedDiedX(a−1)X(c−1)SurvivedX(b−1)X(d−1)Death Ratea−1a+b−2c−1c+d−2
où sont les proportions de chaque cellule du tableau de données agrégées qui sont des hommes.a,b,c,d∈[0,1]
Le paradoxe de Simpson se produit lorsque le taux de mortalité des hommes exposés est supérieur à celui des hommes non exposés ET que le taux de mortalité des femmes exposées est supérieur au taux de mortalité des femmes non exposées. Alternativement, cela se produira également lorsque le taux de mortalité des hommes exposés est inférieur au taux de mortalité des hommes non exposés ET que le taux de mortalité des femmes exposées est inférieur au taux de mortalité des femmes non exposées. C'est quand
(aa+b<cc+d) and (a−1a+b−2<c−1c+d−2)
Or
(aa+b>cc+d) and (a−1a+b−2>c−1c+d−2)
Comme exemple concret, soit , et . Ensuite, nous aurons le paradoxe de Simpson lorsque:X=100a=0.5,b=0.8,c=0.9
(0.50.8+0.9<0.90.9+d) and (0.5−10.5+0.8−2<0.9−10.9+d−2)
(−9<d<1.44) and (0.96<d<1.1)
D'où nous concluons que d doit se trouver dans(0.96,1]
Le 2ème ensemble d'inégalités donne:
(0.50.8+0.9>0.90.9+d) and (0.5−10.5+0.8−2>0.9−10.9+d−2)
(d<−0.9 or d>1.44) and (0.96<d or d>1.44)
qui n'a pas de solution pourd∈[0,1]
Donc, pour les trois valeurs que nous avons choisies pour et , pour invoquer le paradoxe de Simpson, doit être supérieur à 0,96. Dans le cas où la valeur était de nous obtiendrions un taux de mortalité pour les hommes dea,b,cd0.99
0.5/(0.5+0.8)=38% in the exposed group
0.9/(0.9+0.99)=48% in the unexposed group
et pour les femmes:
(0.5−1)/(0.5+0.8−2)=71% in the exposed group
(0.9−1)/(0.9+0.99−2)=91% in the unexposed group
Ainsi, les hommes ont un taux de mortalité plus élevé dans le groupe non exposé que dans le groupe exposé, et les femmes ont également un taux de mortalité plus élevé dans le groupe non exposé que dans le groupe exposé, mais les taux de mortalité dans les données agrégées sont les mêmes pour les groupes exposés et non exposés. .