Quand est-il inapproprié de contrôler une variable?

Je peux penser à au moins un exemple naïf. Supposons que je veuille étudier la relation entre X et Z. Je soupçonne également que Y influence Z, donc je contrôle pour Y. Cependant, comme il se trouve, à mon insu, X cause Y et Y cause Z. Par conséquent, en contrôlant pour Y, je "cache" la relation entre X et Z, puisque X est indépendant de Z étant donné Y.

Maintenant, dans l'exemple précédent, il se peut que les relations que je devrais étudier soient celles entre X et Y, et Y et Z. Cependant, si je savais de telles choses a priori, je ne ferais pas de science en la première place. L'étude que j'ai faite maintenant suggère qu'il n'y a pas de relation entre X et Z, ce qui n'est pas le cas ... X et Z SONT liés.

Ceci est illustré dans le diagramme de dépendance suivant. Dans le bon scénario, Z dépend de X et Y et X et Y sont indépendants. Nous contrôlons à juste titre Y pour déterminer la relation entre X et Z. Dans le scénario de gauche Z dépend de Y qui dépend de X. X et Z sont indépendants étant donné Y, donc la relation entre X et Z est "recouverte" en contrôlant pour Y.

Ma question est essentiellement "Quand est-il approprié de contrôler la variable Y et quand non?" ... Il peut être difficile, voire impossible, d'étudier complètement la relation entre X et Y, mais, par exemple, contrôler Y à un niveau donné est une option. Comment décidons-nous avant de mener notre étude, et quels sont les pièges courants de contrôler trop ou trop peu?

Citations appréciées.

mediation controlling-for-a-variable

— Scott
source

Pour donner un exemple, votre situation exacte se présente lors de l'évaluation de l'impact de la discrimination raciale. Soit

la race. Soit

un salaire. Soit

l'éducation. Il est clair que l'éducation a un impact sur les salaires, donc vous voudriez contrôler cela, MAIS si la discrimination raciale fait en sorte qu'une minorité raciale reçoive une éducation pire, alors le contrôle de l'éducation couvrirait cette discrimination. Par exemple. voir Neal et Johnson (1996) . Comme le souligne la réponse d'Alexis, vous devez entrer dans les détails de votre problème. Il n'y a pas un simple bouton à appuyer qui résout tout.

X

$X$

Z

$Z$

Y

$Y$

— Matthew Gunn

Je n'avais aucun espoir pour un simple bouton à appuyer. En effet, j'aurais été assez déçu si ma question s'était avérée avoir une réponse triviale. :)

— Scott

@Repmat Oui. Cependant, les 4 hypothèses de l'estimation IV sont rarement remplies, et même lorsqu'elles le sont, la force des associations impliquées peut faire que l'estimation IV donne des résultats biaisés. Voir, par exemple, Hernán et Robins Causal Estimation (citation complète et lien dans ma réponse), chapitre 16: Estimation des variables instrumentales.

— Alexis

@Alexis Naturellement, les IV sont difficiles à trouver ... "Pas de déjeuner gratuit" et tout, cependant quand vous le faites, vous le saurez souvent avec peu ou pas de doute.

— Repmat

@Repmat ... les hypothèses pour des estimations IV valides nécessitent plus que ce DAG illustré ... elles sont vraiment assez fragiles.

— Alexis

Réponses:

Le conditionnement (c.-à-d. L'ajustement) des probabilités de certains résultats compte tenu de certains prédicteurs sur les troisièmes variables est largement pratiqué, mais comme vous le faites remarquer à juste titre, il peut en fait introduire un biais dans l'estimation résultante en tant que représentation des effets causals . Cela peut même arriver avec des définitions "classiques" d'un facteur de confusion causal potentiel, car le facteur de confusion lui-même et le prédicteur d'intérêt peuvent chacun avoir d'autres facteurs de confusion causale en amont. Dans le DAG ci-dessous, par exemple, est un facteur de confusion classique de l'effet causal de sur , car (1) il provoque et est donc associé à , et (2) est associé à puisqu'il est associé à $L$ $E$ $D$ $E$ $D$ qui est associé à . Cependant, le conditionnement ou la stratification de sur (un «collisionneur») produira des estimations causales biaisées de l'effet de sur car est confondu avec par la variable non mesurée , et est confondu avec par la variable non mesurée . $U_{2}$ $D$ $P(D|E)$ $L$ $E$ $D$ $L$ $D$ $U_{2}$ $L$ $E$ $U_{1}$

Comprendre sur quelles variables conditionner ou stratifier son analyse pour fournir une estimation causale impartiale nécessite un examen attentif des DAG possibles en utilisant les critères d'identification de l'effet causal - aucune cause commune qui n'est pas bloquée par des chemins de porte dérobée - décrite par Pearl, Robins et d'autres . Il n'y a pas de raccourci. Apprenez les schémas de confusion courants. Apprenez les modèles de biais de sélection courants. Entraine toi.

Les références

Greenland, S., Pearl, J., et Robins, JM (1999). Diagrammes de causalité pour la recherche épidémiologique . Epidemiology , 10 (1): 37–48.

Hernán, MA et Robins, JM (2018). Inférence causale . Chapman & Hall / CRC, Boca Raton, Floride

Maldonado, G. et Greenland, S. (2002). Estimation des effets causaux . Journal international d'épidémiologie , 31 (2): 422–438.

Pearl, J. (2000). Causalité: modèles, raisonnement et inférence . La presse de l'Universite de Cambridge.

— Alexis
source

Je crois que la réponse rapide d'une phrase à votre question,

Quand est-il approprié de contrôler la variable Y et quand non?

est le "critère de la porte dérobée".

Le modèle de causalité structurelle de Judea Pearl peut vous dire définitivement quelles variables sont suffisantes (et quand cela est nécessaire) pour le conditionnement, afin d'inférer l'impact causal d'une variable sur une autre. À savoir, ceci est répondu en utilisant le critère de la porte dérobée, qui est décrit à la page 19 de ce document de synthèse par Pearl.

La principale mise en garde est qu'elle vous oblige à connaître la relation causale entre les variables (sous la forme de flèches directionnelles dans un graphique). Il n'y a aucun moyen de contourner cela. C'est là que la difficulté et l'éventuelle subjectivité peuvent entrer en jeu. Le modèle causal structurel de Pearl vous permet uniquement de savoir comment répondre aux bonnes questions en fonction d'un modèle causal (c'est-à-dire un graphique dirigé), quel ensemble de modèles causaux est possible compte tenu d'une distribution de données, ou comment rechercher la structure causale en effectuant la bonne expérience. Il ne vous dit pas comment trouver la bonne structure causale compte tenu uniquement de la distribution des données. En fait, il prétend que cela est impossible sans utiliser des connaissances / intuitions externes sur la signification des variables.

Les critères de porte dérobée peuvent être énoncés comme suit:

Pour trouver l'impact causal de sur un ensemble de nœuds variables suffit pour être conditionné tant qu'il satisfait aux deux critères suivants: $X$ $Y,$ $S$

1) Aucun élément de n'est un descendant de $S$ $X$

2) bloque tous les chemins "de porte dérobée" entre et $S$ $X$ $Y$

Ici, un chemin « porte arrière » est tout simplement un chemin de flèches qui commencent à et se terminent par une flèche pointant vers (La direction que pointent toutes les autres flèches n'est pas importante.) Et le "blocage" est, en soi, un critère qui a une signification spécifique, qui est donné à la page 11 du lien ci-dessus. Il s'agit du même critère que vous liriez lorsque vous vous renseigneriez sur la «séparation D». J'ai personnellement trouvé que le chapitre 8 de Bishop's Pattern Recognition and Machine Learning décrit le concept de blocage dans la séparation D bien mieux que la source Pearl que j'ai liée ci-dessus. Mais ça se passe comme ceci: $Y$ $X.$

Un ensemble de nœuds, bloque un chemin entre et s'il satisfait au moins un des critères suivants: $S,$ $X$ $Y$

1) L'un des nœuds du chemin, qui est également en émet au moins une flèche sur le chemin (c'est-à-dire que la flèche pointe loin du nœud) $S,$

2) Un nœud qui n'est ni en ni un ancêtre d'un nœud en a deux flèches dans le chemin "entrant en collision" vers lui (c'est-à-dire le rencontrant tête à tête) $S$ $S$

Il s'agit d'un critère ou , contrairement au critère général de porte dérobée qui est un critère et .

Pour être clair sur le critère de la porte dérobée, ce qu'il vous dit, c'est que, pour un modèle causal donné, en conditionnant sur une variable suffisante, vous pouvez apprendre l'impact causal de la distribution de probabilité des données. (Comme nous le savons, la distribution conjointe à elle seule n'est pas suffisante pour trouver un comportement causal car plusieurs structures causales peuvent être responsables de la même distribution. C'est pourquoi le modèle causal est également requis.) La distribution peut être estimée à l'aide de statistiques / méthodes d'apprentissage automatique sur les données d'observation. Aussi longtemps que vous le savez que la structure causale permet de conditionner une variable (ou un ensemble de variables), votre estimation de l'impact causal d'une variable sur une autre est aussi bonne que votre estimation de la distribution des données, que vous obtenez par des méthodes statistiques.

Voici ce que nous constatons lorsque nous appliquons le critère de porte dérobée à vos deux diagrammes:

Dans aucun cas ne il existe un chemin porte arrière de à Il est donc vrai que bloque "tous" les chemins de porte dérobée, car il n'y en a pas. Cependant, dans le diagramme de gauche, est un descendant direct de alors que dans le diagramme de droite, il ne l'est pas. Par conséquent, suit le critère de la porte dérobée dans le diagramme de droite, mais pas celui de gauche. Ce sont des résultats sans surprise. $Z$ $X.$ $Y$ $Y$ $X,$ $Y$

$Y$ $X$ $Z$ $X$ $Y$ $Y$ $Y$ $Z.$ $Y$ $Y.$ $X.$ $Y$ $Y$ $Y$ $X$ $Y$

$Y$ $Y$ $X$ $Z.$

$Y$ $X.$ $Z$ $X.$

$Z \leftarrow Y \rightarrow X$ $Z \leftarrow W \rightarrow B \leftarrow A \rightarrow X. \hspace{1mm}$ $Y$ $Y$ $B,$ $B,$ $Y$ $Z \leftarrow Y \rightarrow X$

$Z \leftarrow W \rightarrow B \rightarrow Y \rightarrow X. \hspace{1mm}$ $Y$ $Z \leftarrow Y \rightarrow X$ $Z \leftarrow W \rightarrow B \leftarrow A \rightarrow X,$ $B.$

$Y$ $A$ $W$ $X$ $Z$ $B.$ $X$ $Z$ $B,$ $B$ $A$ $W$ $B$ $A$ $W$ $X$ $Z$

Comme je l'ai mentionné précédemment, l'utilisation du critère de porte dérobée nécessite que vous connaissiez le modèle causal (c'est-à-dire le diagramme "correct" des flèches entre les variables). Mais le modèle causal structurel, à mon avis, donne également le moyen le meilleur et le plus formel de rechercher un tel modèle, ou de savoir quand la recherche est vaine. Il a également le merveilleux effet secondaire de rendre obsolètes des termes comme «confondant», «médiation» et «faux» (qui me confondent tous). Montrez-moi simplement l'image et je vous dirai quels cercles doivent être contrôlés.

— Brûleurs
source

Agréable. Je me demandais s'il fallait ajouter la causalité de Pearl à la section des références de ma réponse ... et je l'ai maintenant fait. :)

— Alexis

Les éléments suivants peuvent ou non être appropriés à votre cas: s'il Xs'agit d'un traitement, vous pouvez peut-être contourner votre problème en utilisant une correspondance de score de propension dans laquelle vous conserveriez toujours la variable Ylorsque vous effectuez la correspondance. En d'autres termes, vous équilibrez les covariables ( Yest l'une de ces covariables) qui prédisent de recevoir le traitement X.
Notez qu'il n'y a aucune référence à la variable de résultat Zdans ce qui précède. Vous pouvez également vérifier dans quelle mesure vos observations sont équilibrées (en générant un tableau d'équilibre avant et après la correspondance), ce qui pourrait vous donner un aperçu de la quantité Xdéterminée par Y.

— NadTeX
source