Une régression est-elle causale s'il n'y a pas de variables omises?

Une régression de $y$ sur $x$ n'a pas besoin d'être causale s'il y a des variables omises qui influencent à la fois $x$ et $y$ . Mais si ce n'est pour les variables omises et l'erreur de mesure, une régression est-elle causale? Autrement dit, si toutes les variables possibles sont incluses dans la régression?

regression bias causality

— Esha
source

Non, même si vous incluez chaque variable dans le monde, cela pourrait être causal inverse. Par exemple, la proximité d'une planète avec son étoile la plus proche pourrait être prédite avec précision par la température de surface de la planète, mais clairement la causalité va dans l'autre sens

— gazza89

@ gazza89 - puisque cela répond efficacement à la question, vous voudrez peut-être la développer en réponse.

— jbowman

Qu'est-ce que les "variables omises"? Supposons que j'ai un Y et 4 X dans mon jeu de données. J'adapte un modèle comprenant tous les 4 Xs. Alors je n'ai pas de variables omises?

— user158565

Réponses:

Non, ce n'est pas le cas, je vais vous montrer quelques contre-exemples.

Le premier est la causalité inverse . Considérons que le modèle causal est $Y \rightarrow X$ , où $X$ et $Y$ sont des variables aléatoires gaussiennes standard. Alors $E[Y|do(x)] = 0$ , car $X$ ne provoque pas $Y$ , mais $E[Y|x]$ dépendra de $X$ .

Le deuxième exemple est le contrôle des collisionneurs (voir ici ). Considérons le modèle causal $X \rightarrow Z \leftarrow Y$ , c'est-à-dire que $X$ ne cause pas $Y$ et $Z$ est une cause courante. Mais notez que, si vous exécutez une régression incluant $Z$ , le coefficient de régression de $X$ ne sera pas nul, car le conditionnement sur la cause commune induira une association entre $Y$ et $X$ (vous voudrez peut-être voir ici également l' analyse de chemin en présence de un collisionneur conditionné ).

Plus généralement, la régression de $Y$ sur $X$ sera causale si les variables incluses dans la régression satisfont au critère de porte dérobée .

— Carlos Cinelli
source

Je recommande vivement le livre de pourquoi, de Judea Pearl. Explique en détail ce à quoi Carlos fait référence.

— Markos Kashiouris

Que signifie

d o (x)

$do(x)$

— naught101

@ naught101, cela signifie que vous forcez réellement X = x, contrairement à l'observation passive de X = x, voir ici stats.stackexchange.com/questions/211008/dox-operator-meaning/…

— Carlos Cinelli

Merci, mais je ne suis pas clair sur la notation. Est-ce que

signifie que

provoque

? Faut-il inverser les flèches?

X \to Z \leftarrow Y

$X \rightarrow Z \leftarrow Y$

Z

$Z$

X

$X$

Y

$Y$

— Esha

@Esha Cela signifie que

causent

x

$x$

y

$y$

z

$z$

— Carlos Cinelli

En plus de l'importante réponse de Carlos Cinelli à cette question, il y a quelques autres raisons pour lesquelles les coefficients de régression pourraient ne pas être causaux.

Premièrement, une erreur de spécification du modèle peut rendre les paramètres non causaux. Ce n'est pas parce que vous avez toutes les variables pertinentes dans votre modèle que vous les avez ajustées correctement. À titre d'exemple très simple, considérons une variable $X$ qui est distribuée symétriquement autour de 0. Supposons que votre variable de résultat $Y$ soit affectée par $X$ de telle sorte que $E(Y\mid X)=X^2$ . La régression de $Y$ sur $X$ (par opposition à $X^2$ ) donnera alors un coefficient estimé pour $X$ $Y$

Deuxièmement, et en ce qui concerne le thème de la causalité inverse, il existe également le risque que vous puissiez avoir un biais de sélection , c'est-à-dire que votre échantillon a été sélectionné de manière à ne pas être représentatif de la population à laquelle vous souhaitez tirer votre inférence. De plus, les données manquantes peuvent également introduire un biais si les données ne manquent pas complètement au hasard.

— Phil
source