Pourquoi le confondant doit-il être causalement lié au résultat? Serait-il suffisant que le confondant soit associé au résultat?
Non, ce n'est pas suffisant.
Commençons par le cas où vous pouvez avoir une variable qui est à la fois associée au résultat et au traitement, mais le contrôler entraînerait un biais dans votre estimation.
Z
Dans ce cas, il n'y a pas de confusion, vous pouvez directement estimer l'effet de X sur Y.
Notez cependant que Z est associé à la fois au traitement et au résultat. Mais ce n'est toujours pas un facteur de confusion. En fait, si vous contrôlez Z dans ce cas, vous biaiseriez votre estimation. Cette situation est appelée biais M (en raison de la structure du graphe).
XOui
Ici encore, Z est associé à X et Y, mais ce n'est pas un cofondateur. Vous ne devriez pas contrôler cela.
Maintenant, il convient de noter que même si une variable est causalement liée au résultat , elle n'est pas nécessairement non plus un facteur de confusion.
Prenons le cas des médiateurs, dans le graphique simple ci-dessous:
Si vous voulez mesurer l'effet total de D sur Y, vous ne devriez pas contrôler les choses qui médient l'effet --- dans ce cas M. C'est-à-dire que M est causalement lié à Y, mais ce n'est pas un facteur de confusion en ce qui concerne le effet total de D sur Y non plus.
Avis cependant que la définition confouding est beaucoup plus facile que de définir ce qu'est un facteur de confusion est. Pour une discussion plus stricte de la définition de confouder , vous voudrez peut-être lire cet article de VanderWeele et Shpitser.
pourquoi est-ce le cas? Parce que le concept principal ici est celui de la confusion elle-même, pas de la confusion. Pour votre question de recherche, vous devez vous demander "comment puis-je éliminer la confusion?" au lieu de "cette variable est-elle un facteur de confusion?".
Et pour terminer, il convient de mentionner que ces idées fausses sont encore très répandues. Juste pour illustrer, prenez cette citation d'un article de 2016 :
L'inférence causale en l'absence d'une expérience randomisée ou d'un plan quasi-expérimental solide nécessite un conditionnement approprié de toutes les variables de prétraitement qui prédisent à la fois le traitement et les résultats, également appelées covariables de confusion.
Comme nous l'avons montré dans les exemples précédents, c'est incorrect. Les facteurs de confusion ne sont pas «toutes les variables de prétraitement qui prédisent à la fois le traitement et les résultats». Il n'est peut-être pas nécessaire de les contrôler tous pour éliminer la confusion ou cela pourrait même biaiser vos résultats. Pearl a un très bon aperçu de la confusion ici.