Représenter les effets d'interaction dans les graphiques acycliques dirigés

Les graphiques acycliques dirigés (DAG; par exemple, Groenland, et al, 1999) font partie d'un formalisme d'inférence causale à partir de l'interprétation contrefactuelle du camp de causalité. Dans ces graphiques, la présence d'une flèche de la variable à la variable affirme que la variable provoque directement (une certaine variation du risque de) la variable , et l'absence d'une telle flèche affirme que la variable ne provoque pas directement (une certaine variation du risque de) la variable . $A$ $B$ $A$ $B$ $A$ $B$

À titre d'exemple, l'énoncé «l'exposition à la fumée de tabac provoque directement une modification du risque de mésothéliome» est représenté par la flèche noire de «exposition à la fumée de tabac» à «mésothéliome» dans le diagramme causal non DAG ci-dessous.

De même, l'énoncé «l'exposition à l'amiante provoque directement un changement du risque de mésothéliome» est représenté par la flèche noire de «exposition à l'amiante» à «mésothéliome» dans le graphique causal non DAG ci-dessous.

J'utilise le terme pas un DAG pour décrire le graphique causal ci-dessous en raison de la flèche rouge, que j'ai l'intention d'affirmer quelque chose comme "l'exposition à l'amiante provoque un changement dans l'effet causal direct de l'exposition à la fumée de tabac sur le risque de mésothéliome" (l'amiante fait physique dommages aux cellules du poumon qui, en plus de provoquer directement une modification du risque de mésothéliome, rendent également les cellules plus sensibles aux effets cancérigènes de l'exposition à la fumée de tabac, de sorte que l'exposition à l'amiante et au tabac entraîne une augmentation de risque qui est supérieur à la somme des deux risques distincts), et cela ne correspond pas tout à fait à la signification formelle des flèches causales dans les DAG que j'ai décrites au début de ma question (c'est-à-dire parce que la flèche rouge ne se termine pas par une variable).

Comment représenter correctement les effets d'interaction dans le formalisme visuel d'un DAG?

Les références

Greenland, S., Pearl, J., et Robins, JM (1999). Diagrammes de causalité pour la recherche épidémiologique . Epidemiology , 10 (1): 37–48.

interaction causality dag

— Alexis
source

Est-il possible de changer le DAG en ajoutant un nœud pour les dommages aux cellules pulmonaires avec des flèches du tabac et de l'amiante pointées vers l'intérieur et une flèche vers le mésothéliome? Cela maintient le DAG et offre une flexibilité pour modéliser les effets individuels et composés.

— John Woolf

Oui, j'avais pensé à quelque chose comme ça, mais je me demande si cela implique également que le principal effet du tabac n'est pas aussi les «dommages aux cellules pulmonaires», quand il l'est. Je suppose que l'on pourrait ajouter une autre variable `` tabac et amiante ensemble '' causée par le tabac et par l'amiante, mais cela semble maladroit ... mais c'est peut-être ce avec quoi on doit aller.

— Alexis

Quel logiciel avez-vous utilisé pour créer le graphique?

— zipzapboing

@zipzapboing l'a dessiné à la main dans MS Word, ou PageStream ou Scribus ou quelque chose, puis édité pour la couleur et la transparence en utilisant GIMP. (C'est en fait un extrait de certaines de mes diapositives de conférence.)

— Alexis

Réponses:

La théorie de Pearl sur la causalité est totalement non paramétrique . Les interactions ne sont pas explicitées à cause de cela, ni dans le graphique ni dans les équations structurelles qu'il représente. Cependant, les effets causaux peuvent varier (énormément) par hypothèse.

Si un effet est identifié et que vous l'estimez à partir de données non paramétriques, vous obtenez une distribution complète des effets causaux (au lieu, disons, d'un seul paramètre). En conséquence, vous pouvez évaluer l'effet causal de l'exposition au tabac conditionnellement à une exposition à l'amiante de manière non paramétrique pour voir si elle change, sans vous engager dans une forme fonctionnelle.

Jetons un œil aux équations structurelles de votre cas, qui correspondent à votre "DAG" dépouillé de la flèche rouge:

Mésothéliome = (tabac, amiante, ) $f_{1}$ $\epsilon_{m}$

Tabac = ( ) $f_{2}$ $\epsilon_{t}$

Amiante = ( ) $f_{3}$ $\epsilon_{a}$

où les sont supposés être indépendants en raison de flèches pointillées manquantes entre eux. $\epsilon$

Nous avons laissé les fonctions respectives f () et les distributions des erreurs non spécifiées, sauf pour dire que ces dernières sont indépendantes. Néanmoins, nous pouvons appliquer la théorie de Pearl et déclarer immédiatement que les effets causals de l'exposition au tabac et à l'amiante sur le mésothéliome sont identifiés . Cela signifie que si nous avions une infinité d'observations de ce processus, nous pourrions mesurer exactement l'effet du réglage des expositions à différents niveaux en voyant simplement les incidences du mésothéliome chez les individus avec différents niveaux d'exposition. Nous pourrions donc déduire la causalité sans faire une expérience réelle. Cela s'explique par le fait qu'il n'existe aucun chemin d'accès secondaire entre les variables d'exposition et la variable de résultat.

Vous obtiendrez donc

P (mésothéliome | do (tabac = t)) = P (mésothéliome | tabac = t)

La même logique s'applique à l'effet causal de l'amiante, ce qui vous permet d'évaluer simplement:

P (mésothéliome | tabac = t, amiante = a) - P (mésothéliome | tabac = t ', amiante = a)

en comparaison à

P (mésothéliome | Tabac = t, amiante = a ') - P (mésothéliome | Tabac = t', amiante = a ')

pour toutes les valeurs pertinentes de t et a afin d'estimer les effets d'interaction.

Dans votre exemple concret, supposons que la variable de résultat est une variable de Bernoulli - vous pouvez avoir un mésothéliome ou non - et qu'une personne a été exposée à un niveau d'amiante très élevé a. Ensuite, il est très probable qu'il souffre de mésothéliome; en conséquence, l'effet de l'augmentation de l'exposition au tabac sera très faible. D'un autre côté, si les niveaux d'amiante a 'sont très bas, l'augmentation de l'exposition au tabac aura un effet plus important. Cela constituerait une interaction entre les effets du tabac et de l'amiante.

Bien sûr, l'estimation non paramétrique peut être extrêmement exigeante et bruyante avec des données finies et beaucoup de valeurs t et a différentes, vous pourriez donc penser à supposer une certaine structure dans f (). Mais fondamentalement, vous pouvez le faire sans cela.

— Julian Schuessler
source

Julian, merci pour la profondeur de la logique de causalité contrefactuelle de Pearl. Votre réponse serait améliorée en parlant de la représentation visuelle des effets d'interaction qui était au cœur de ma question (peut-être en disant «Les DAG ne rendent pas les effets d'interaction explicites», ou qu'avez-vous.)

— Alexis

Oui, tu as raison; J'ai essayé de clarifier cela au tout début.

— Julian Schuessler

Julian, c'est super. Vous dites que les blocs de construction d'un DAG ne sont pas des liens individuels, C = f (D) mais plus généralement des ensembles de liens, C = f (D, E, ...). Mon problème est que Pearl est parfois vague à ce sujet, par exemple dans "Causalité" sa Def 2.2.1.: "Une structure causale d'un ensemble de variables V est un DAG dans lequel chaque nœud correspond à un élément distinct de V, et chaque le lien représente une relation fonctionnelle directe entre les variables correspondantes. " Certes, les liens individuels des parents de C à C ne signifient rien par eux-mêmes, ils ne montrent que la participation à une influence collective sur C. Vous êtes d'accord?

— Steve Powell

Oui. C = f (D, E) serait représenté par deux liens dans le graphique de D / E à C. L'interprétation des liens est que D et E déterminent C. Les liens, bien sûr, sont relationnels.

— Julian Schuessler

La réponse simple est que vous le faites déjà. Les DAG conventionnels ne représentent pas seulement les effets principaux mais plutôt la combinaison des effets principaux et des interactions. Une fois que vous avez dessiné votre DAG, vous supposez déjà que toutes les variables pointant vers le même résultat peuvent modifier l'effet des autres pointant vers le même résultat. Il s'agit d'une hypothèse de modélisation, distincte du DAG, qui suppose l'absence d'interaction.

De plus, l'interaction peut se produire sans inclure un terme d'interaction explicite dans votre modèle. Si vous incluez les effets principaux uniquement dans un modèle pour le rapport de risque de Y par rapport au traitement T et la covariable Q, l'estimation de la différence de risque différera en fonction du niveau de Q. Afin de tenir compte de toutes ces possibilités de manière non paramétrique, les DAG font seules les hypothèses les plus faibles sur la forme fonctionnelle des relations entre les variables, et supposer qu'aucune interaction n'est une hypothèse plus forte que celle permettant une interaction. Cela revient à dire que les DAG permettent déjà une interaction sans aucun ajustement. Voir Vanderweele (2009) pour une discussion sur l'interaction qui utilise les DAG conventionnels mais permet l'interaction.

Bollen et Paxton (1998) et Muthén et Asparouhov (2015) démontrent tous deux des interactions dans des modèles de chemin avec des variables latentes, mais ces interactions se réfèrent explicitement aux termes du produit dans un modèle paramétrique plutôt qu'aux interactions au sens large. J'ai également vu des diagrammes similaires au vôtre où la flèche causale pointe vers un chemin, mais à proprement parler un chemin n'est pas une quantité unique sur laquelle une variable peut avoir un effet causal (même si c'est peut-être ainsi que nous voulons interpréter nos modèles) ; il représente simplement la présence d'un effet causal, pas son ampleur.

Bollen, KA et Paxton, P. (1998). Interactions des variables latentes dans les modèles d'équations structurelles. Structural Equation Modeling: A Multidisciplinary Journal, 5 (3), 267-293.

Muthén, B. et Asparouhov, T. (2015). Interactions variables latentes.

VanderWeele, TJ (2009). Sur la distinction entre interaction et modification d'effet. Epidemiology, 20 (6), 863-871.

— Noé
source

Aussi: "Une fois que vous avez dessiné votre DAG, vous supposez déjà que toutes les variables pointant vers le même résultat peuvent modifier l'effet des autres pointant vers le même résultat. Il s'agit d'une hypothèse de modélisation, distincte du DAG, qui présume le manque de une interaction. " est génial ... ça a vraiment aidé ces idées à se poser avec moi.

— Alexis