Le Paradoxe de Simpson couvre-t-il toutes les instances de retournement d'une variable cachée?

Ce qui suit est une question sur les nombreuses visualisations offertes comme «preuve par l'image» de l'existence du paradoxe de Simpson, et peut-être une question sur la terminologie.

Le Paradoxe de Simpson est un phénomène assez simple à décrire et à donner des exemples numériques (la raison pour laquelle cela peut se produire est profonde et intéressante). Le paradoxe est qu'il existe des tables de contingence 2x2x2 (Agresti, analyse de données catégoriques) où l'association marginale a une direction différente de chaque association conditionnelle.

Autrement dit, la comparaison des ratios dans deux sous-populations peut toutes deux aller dans une direction mais la comparaison dans la population combinée va dans l'autre direction. En symboles:

Il existe tels que $a,b,c,d,e,f,g,h$

\frac{a + b}{c + d} > \frac{e + f}{g + h}

$\frac{a+b}{c+d} > \frac{e+f}{g+h}$

mais et

\frac{a}{c} < \frac{e}{g}

$\frac{a}{c} < \frac{e}{g}$

\frac{b}{d} < \frac{f}{h}

$\frac{b}{d} < \frac{f}{h}$

Ceci est représenté avec précision dans la visualisation suivante (de Wikipedia ):

Une fraction est simplement la pente des vecteurs correspondants, et il est facile de voir dans l'exemple que les vecteurs B plus courts ont une pente plus grande que les vecteurs L correspondants, mais le vecteur B combiné a une pente plus petite que le vecteur L combiné.

Il existe une visualisation très courante sous plusieurs formes, une en particulier à l'avant de cette référence wikipedia sur Simpson:

Ceci est un excellent exemple de confusion, comment une variable cachée (qui sépare deux sous-populations) peut montrer un modèle différent.

Cependant, mathématiquement, une telle image ne correspond nullement à un affichage des tableaux de contingence qui sont à la base du phénomène dit du paradoxe de Simpson . Premièrement, les lignes de régression sont sur des données d'ensemble de points à valeur réelle, et non sur les données d'une table de contingence.

En outre, on peut créer des ensembles de données avec une relation arbitraire de pentes dans les lignes de régression, mais dans les tableaux de contingence, il y a une restriction dans la façon dont les pentes peuvent être différentes. C'est-à-dire que la droite de régression d'une population peut être orthogonale à toutes les régressions des sous-populations données. Mais dans le Paradoxe de Simpson, les ratios des sous-populations, bien qu'il ne s'agisse pas d'une pente de régression, ne peuvent pas trop s'éloigner de la population fusionnée, même si dans l'autre sens (encore une fois, voir l'image de comparaison des ratios de Wikipedia).

Pour moi, cela suffit d'être déconcerté chaque fois que je vois cette dernière image comme une visualisation du paradoxe de Simpson. Mais comme je vois partout (ce que j'appelle mal) des exemples, je suis curieux de savoir:

Suis-je en train de manquer une transformation subtile des exemples originaux de tables de contingence Simpson / Yule en valeurs réelles qui justifient la visualisation de la ligne de régression?
Sûrement Simpson est un exemple particulier d'erreur de confusion. Le terme «Paradoxe de Simpson» est-il devenu synonyme d'erreur de confusion, de sorte que, quel que soit le calcul, tout changement de direction via une variable cachée peut être appelé Paradoxe de Simpson?

Addendum: Voici un exemple de généralisation à une table 2xmxn (ou 2 par m en continu):

S'il est fusionné sur le type de tir, il semble qu'un joueur fasse plus de coups lorsque les défenseurs sont plus proches. Regroupé par type de tir (distance du panier vraiment), la situation la plus intuitive se produit, plus il y a de tirs, plus les défenseurs sont éloignés.

Cette image est ce que je considère comme une généralisation de Simpson à une situation plus continue (distance des défenseurs). Mais je ne vois toujours pas encore comment l'exemple de ligne de régression est un exemple de Simpson.

— Mitch
source

Le Paradoxe de Simpson ne s'applique pas uniquement aux données cibles catégorielles. Les données cibles continues avec un facteur catégoriel qui l'affecte, comme dans votre graphique final, peuvent être sujettes au paradoxe. La clé est ce "facteur catégorique", non pas si la variable d'intérêt est catégorique ou non, ou si l'un ou tous les autres facteurs affectant la variable d'intérêt sont catégoriques.

— jbowman

@jbowman OK, je peux voir que SP pourrait être généralisable au-delà des données catégoriques en continu (je n'ai pas vu cette généralisation; SP semble toujours être présenté avec des tableaux de contingence), mais je ne vois pas comment le deuxième graphique correspond. Je veux dire que je vois la métaphore évidente mais vague "une variable cachée peut changer la direction", mais je ne vois tout simplement pas comment la généralisation fonctionne mathématiquement / précisément.

— Mitch

Vous avez un facteur catégorique caché qui fait que les "vraies" données suivent les deux lignes colorées, mais à votre insu, les données semblent suivre la ligne pointillée. Considérez les accidents de la route par âge comme variables cibles et sur l'axe des x - non catégoriques. Ils semblent diminuer avec l'âge, non? Ajoutez maintenant le "facteur caché" de "conduire en état d'ivresse". La ligne bleue serait «conduire en état d'ivresse», la ligne rouge «conduire en état d'ébriété». Compte tenu de ce facteur caché, lié à la jeunesse, les accidents augmentent avec l'âge! (Ce n'est pas l'exemple le plus réaliste, je dois l'admettre, mais c'est l'idée qui compte ...)

— jbowman

@jbowman Cela ressemble à une explication de l'erreur de confusion plutôt que de SP. Vous dites peut-être que SP et confusion sont les mêmes. Mais cela sonne dans le sens d'une réponse; peut-être pourriez-vous le formaliser un peu plus et rendre la connexion avec SP plus explicite (expliquez mathématiquement comment les lignes de régression ressemblent en quelque sorte aux comparaisons de ratios dans le cas du tableau de contingence).

— Mitch

Je suis d'accord que la version de contingence est différente à deux égards de l'exemple de régression dans votre question. (1) La variable de confusion n'est pas une covariable décrivant un échantillon individuel, c'est une certaine proportion qui diffère entre le traitement et le groupe témoin. Dans l' exemple des calculs rénaux, la proportion de patients gros calculs est différente entre les deux groupes et cela provoque le paradoxe. (2) Dans l'exemple du rein, le traitement n'est pas corrélé à un changement de la variable de confusion, c'est un effet distinct.

x

$x$

p

$p$

— Paul

Réponses:

Le paradoxe est qu'il existe des tables de contingence 2x2x2 (Agresti, analyse de données catégoriques) où l'association marginale a une direction différente de chaque association conditionnelle. des valeurs réelles qui justifient la visualisation de la ligne de régression?

Le problème principal est que vous assimilez une manière simple de montrer le paradoxe comme le paradoxe lui-même. L'exemple simple du tableau de contingence n'est pas le paradoxe en soi. Le paradoxe de Simpson concerne les intuitions causales conflictuelles lors de la comparaison des associations marginales et conditionnelles, le plus souvent en raison de renversements de signe (ou d'atténuations extrêmes telles que l'indépendance, comme dans l'exemple original donné par Simpson lui - même , dans lequel il n'y a pas de renversement de signe). Le paradoxe survient lorsque vous interprétez les deux estimations de manière causale, ce qui pourrait conduire à des conclusions différentes --- le traitement aide-t-il ou nuit-il au patient? Et quelle estimation devez-vous utiliser?

Que le modèle paradoxal apparaisse sur une table de contingence ou dans une régression, cela n'a pas d'importance. Toutes les variables peuvent être continues et le paradoxe pourrait toujours se produire --- par exemple, vous pourriez avoir un cas où pourtant . $\frac{\partial E(Y|X)}{\partial X} > 0$ $\frac{\partial E(Y|X, C = c)}{\partial X} < 0, \forall c$

Sûrement Simpson est un exemple particulier d'erreur de confusion.

Ceci est une erreur! Le paradoxe de Simpson n'est pas un exemple particulier d'erreur de confusion - s'il ne s'agissait que de cela, alors il n'y aurait aucun paradoxe. Après tout, si vous êtes sûr qu'une relation est confondue, vous ne seriez pas surpris de voir des inversions ou des atténuations de signe dans les tableaux de contingence ou les coefficients de régression - peut-être vous attendriez-vous même à cela.

Ainsi, alors que le paradoxe de Simpson fait référence à une inversion (ou une atténuation extrême) des "effets" lors de la comparaison des associations marginales et conditionnelles, cela peut ne pas être dû à une confusion et a priori, vous ne pouvez pas savoir si la table marginale ou conditionnelle est la "correcte". "celui à consulter pour répondre à votre requête causale. Pour ce faire, vous devez en savoir plus sur la structure causale du problème.

Considérez ces exemples donnés dans Pearl :

Imaginez que vous êtes intéressé par l' effet total de cause à effet de sur . L'inversion des associations pourrait se produire dans tous ces graphiques. En (a) et (d) nous avons confondant, et vous ajusterait pour . En (b) il n'y a pas de confusion, est un médiateur, et vous ne devriez pas régler pour . Dans (c) est un collisionneur et il n'y a pas de confusion, vous ne devriez donc pas vous ajuster pour non plus. Autrement dit, dans deux de ces exemples (b et c), vous pouvez observer le paradoxe de Simpson, mais il n'y a aucune confusion et la bonne réponse à votre requête causale serait donnée par l'estimation non ajustée. $X$ $Y$ $Z$ $Z$ $Z$ $Z$ $Z$

L'explication de Pearl sur la raison pour laquelle cela a été considéré comme un "paradoxe" et pourquoi il intrigue toujours les gens est très plausible. Prenons le cas simple décrit en (a) par exemple: les effets causaux ne peuvent pas simplement s'inverser comme ça. Par conséquent, si nous supposons à tort que les deux estimations sont causales (la marginale et la conditionnelle), nous serions surpris de voir une telle chose se produire --- et les humains semblent être câblés pour voir la causalité dans la plupart des associations.

Revenons donc à votre question principale (titre):

Le Paradoxe de Simpson couvre-t-il toutes les instances de retournement d'une variable cachée?

Dans un sens, c'est la définition actuelle du paradoxe de Simpson. Mais évidemment la variable de conditionnement n'est pas cachée, elle doit être observée sinon vous ne verriez pas le paradoxe se produire. La majeure partie de la partie déroutante du paradoxe provient de considérations causales et cette variable «cachée» n'est pas nécessairement un facteur de confusion.

Tableaux de contingence et régression

Comme discuté dans les commentaires, l'identité algébrique de l'exécution d'une régression avec des données binaires et du calcul des différences de proportions à partir des tables de contingence pourrait aider à comprendre pourquoi le paradoxe apparaissant dans les régressions est de nature similaire. Imaginez que votre résultat est , votre traitement et vos groupes , toutes variables binaires. $y$ $x$ $z$

Alors la différence globale en proportion est simplement le coefficient de régression de sur . En utilisant votre notation: $y$ $x$

\frac{a + b}{c + d} - \frac{e + f}{g + h} = \frac{c o v (y, x)}{v a r (x)}

$\frac{a+b}{c+d} - \frac{e+f}{g+h} = \frac{cov(y,x)}{var(x)}$

Et la même chose vaut pour chaque sous-groupe de si vous exécutez des régressions distinctes, une pour : $z$ $z=1$

\frac{a}{c} - \frac{e}{g} = \frac{c o v (y, x | z = 1)}{v a r (x | z = 1)}

$\frac{a}{c} - \frac{e}{g} = \frac{cov(y,x|z =1)}{var(x|z=1)}$

Et un autre pour : $z =0$

\frac{b}{d} - \frac{f}{h} = \frac{c o v (y, x | z = 0)}{v a r (x | z = 0)}

$\frac{b}{d} - \frac{f}{h} = \frac{cov(y,x|z=0)}{var(x|z=0)}$

Ainsi en termes de régression, le paradoxe correspond à l'estimation du premier coefficient dans une direction et les deux coefficients des sous-groupes dans une direction différente de celle du coefficient pour l'ensemble de la population . $\left(\frac{cov(y,x)}{var(x)}\right)$ $\left(\frac{cov(y,x|z)}{var(x|z)}\right)$ $\left(\frac{cov(y,x)}{var(x)}\right)$

— Carlos Cinelli
source

Il semble que, selon vous, le paradoxe de Simpson se réfère non seulement à la possibilité d'une différence dans les associations marginales et conditionnelles, mais aussi à la confusion quant à laquelle est "bon" à utiliser lors de l'interprétation des données? Et Pearl montre que la structure causale est ce que nous devrions utiliser pour en décider?

— Paul

"Le paradoxe de Simpson concerne les intuitions contradictoires lors de la comparaison des associations marginales et conditionnelles." Je ne suis pas d'accord ici, le paradoxe de Simpson se réfère spécifiquement à un retournement de signe lors de la comparaison des résultats bruts aux résultats stratifiés.

— AdamO

@AdamO alors que la plupart des gens utilisent le cas extrême d'inversion de signe comme la définition "stricte" du paradoxe de Simpson, l'exemple original de Simpson n'avait en fait pas d'inversion de signe.

— Carlos Cinelli

@Paul, c'est exactement ça.

— Carlos Cinelli

@AdamO Je pense que l'explication de Pearl expliquant pourquoi cela a été considéré comme un "paradoxe" et pourquoi il intrigue toujours les gens est plausible. Dans le cas simple de (a) par exemple, les effets causaux ne peuvent pas simplement s'inverser comme ça. Par conséquent, si nous pensons de façon causale pour les deux cas, nous serions surpris de voir une telle chose se produire --- et les humains semblent être câblés pour voir la causalité dans la plupart des associations.

— Carlos Cinelli

Suis-je en train de manquer une transformation subtile des exemples originaux de tables de contingence Simpson / Yule en valeurs réelles qui justifient la visualisation de la ligne de régression?

Oui. Une représentation similaire des analyses catégorielles est possible en visualisant les log-odds de réponse sur l'axe Y. Le paradoxe de Simpson apparaît à peu près de la même façon avec une ligne "brute" qui va à l'encontre des tendances spécifiques à la strate pondérées en distance selon la cote logarithmique de référence de la strate du résultat.

Voici un exemple avec les données d'admission de Berkeley

Ici, le sexe est un code masculin / féminin, sur l'axe des X est le logarithme brut des admissions pour les hommes par rapport aux femmes, la ligne noire en pointillés montre la préférence pour le sexe: la pente positive suggère un biais vers les admissions masculines. Les couleurs représentent l'admission à des départements spécifiques. Dans tous les cas sauf deux, la pente de la ligne de préférence selon le sexe propre au ministère est négative. Si ces résultats sont moyennés ensemble dans un modèle logistique ne tenant pas compte de l'interaction, l'effet global est un renversement favorisant les admissions féminines. Ils ont demandé plus fréquemment aux départements les plus difficiles que les hommes.

Sûrement Simpson est un exemple particulier d'erreur de confusion. Le terme «paradoxe de Simpson» est-il devenu synonyme d'erreur de confusion, de sorte que, quel que soit le calcul, tout changement de direction via une variable cachée peut être appelé paradoxe de Simpson?

En bref, non. Le paradoxe de Simpson n'est que le «quoi» tandis que la confusion est le «pourquoi». La discussion dominante a porté sur les points sur lesquels ils sont d'accord. La confusion peut avoir un effet minimal ou négligeable sur les estimations, et alternativement le paradoxe de Simpson, bien que dramatique, peut être causé par des non-confondants. À noter, les termes variable "cachée" ou "cachée" sont imprécis. Du point de vue de l'épidémiologiste, un contrôle et une conception rigoureux de l'étude devraient permettre de mesurer ou de contrôler d'éventuels contributeurs à un biais confondant. Ils n'ont pas besoin d'être «cachés» pour être un problème.

Il y a des moments où les estimations ponctuelles peuvent varier considérablement, au point d'être inversées, qui ne résultent pas d'une confusion. Les collisionneurs et les médiateurs sont également des effets de changement, éventuellement inversés. Le raisonnement causal prévient que pour étudier les effets, l'effet principal doit être étudié isolément plutôt que de s'y ajuster car l'estimation stratifiée est erronée. (Cela revient à déduire, à tort, que voir le médecin vous rend malade, ou que les armes à feu tuent des gens, donc les gens ne tuent pas les gens).

— AdamO
source

Donc, vous diriez que l'exemple original de Simpson n'est pas un cas de "paradoxe de Simpson"?

— Carlos Cinelli

@CarlosCinelli à quel exemple feriez-vous référence? Je n'ai pas accès à l'article de Simpson de 1951, mais étant donné qu'il est publié dans JRSS et n'a aucune référence à un exemple appliqué dans l'abstrait, cela semble un travail purement théorique.

— AdamO

C'est l'exemple numérique des paragraphes 9 et 10, où il donne les mêmes tableaux de contingence avec deux histoires différentes qui conduiraient à deux interprétations causales différentes. Dans cet exemple, il n'y a pas d'inversion de signe, juste une indépendance marginale.

— Carlos Cinelli

Pour voir pourquoi l'inversion du signe est sans importance ici, imaginez une situation où un traitement montre une association extrêmement forte pour les hommes et les femmes, mais ne montre qu'une minuscule association dans la population globale. Ce serait encore trop paradoxal pour la plupart des gens, s'il était interprété de façon causale.

— Carlos Cinelli

@CarlosCinelli J'aurais dit que c'était un exemple de confusion, mais pas le paradoxe de Simpson en soi, mais je ne m'y attarderai pas, je pense que vous avez fait un bon argument et peut-être que je tenais des hypothèses incorrectes sur ce qui était et ce qui n'était pas le phénomène insaisissable du Paradoxe de Simpson.

— AdamO