D'un point de vue statistique, peut-on inférer la causalité en utilisant des scores de propension avec une étude observationnelle?


27

Question: Du point de vue du statisticien (ou d'un praticien), peut-on déduire la causalité en utilisant les scores de propension avec une étude observationnelle ( pas une expérience )?

Je vous en prie, ne voulez pas déclencher une guerre des flammes ou un débat fanatique.

Contexte: Dans notre programme de doctorat en statistique, nous n'avons abordé l'inférence causale que par le biais de groupes de travail et de quelques séances thématiques. Cependant, il y a des chercheurs très éminents dans d'autres départements (par exemple HDFS, Sociologie) qui les utilisent activement.

J'ai déjà assisté à un débat assez animé sur cette question. Je n'ai pas l'intention d'en commencer un ici. Cela dit, quelles références avez-vous rencontrées? Quels points de vue avez-vous? Par exemple, un argument que j'ai entendu contre les scores de propension en tant que technique d'inférence causale est que l'on ne peut jamais inférer la causalité en raison d'un biais variable omis - si vous omettez quelque chose d'important, vous brisez la chaîne causale. Est-ce un problème insoluble?

Avertissement: Cette question peut ne pas avoir une réponse correcte - complètement cool en cliquant sur cw, mais je suis personnellement très intéressé par les réponses et serais heureux de quelques bonnes références qui incluent des exemples du monde réel.

Réponses:


16

Au début d'un article visant à promouvoir l'utilisation des PS en épidémiologie, Oakes et Church (1) ont cité les affirmations de Hernán et Robins sur l'effet de confusion en épidémiologie (2):

Pouvez-vous garantir que les résultats de votre étude observationnelle ne sont pas affectés par une confusion non mesurée? La seule réponse qu'un épidémiologiste peut fournir est «non».

Cela ne veut pas seulement dire que nous ne pouvons pas garantir que les résultats des études d'observation sont impartiaux ou inutiles (car, comme l'a dit @propofol, leurs résultats peuvent être utiles pour la conception des ECR), mais aussi que les PS n'offrent certainement pas une solution complète à ce problème. problème, ou du moins ne donnent pas nécessairement de meilleurs résultats que d'autres méthodes d'appariement ou multivariées (voir par exemple (10)).

Les scores de propension (PS) sont, par construction, des indicateurs probabilistes et non causaux . Le choix des covariables qui entrent dans la fonction de score de propension est un élément clé pour assurer sa fiabilité, et leur faiblesse, comme cela a été dit, tient principalement au fait de ne pas contrôler les facteurs de confusion non observés (ce qui est très probable dans les études rétrospectives ou cas-témoins ) . D'autres facteurs doivent être pris en compte: (a) les erreurs de spécification du modèle auront un impact sur les estimations de l'effet direct (pas vraiment plus que dans le cas de l'OLS, cependant), (b) il peut y avoir des données manquantes au niveau des covariables, (c) les PS le font ne pas surmonter les effets synergiques qui sont connus pour affecter l'interprétation causale (8,9).

En ce qui concerne les références, j'ai trouvé les diapositives de Roger Newson - Causalité, facteurs de confusion et scores de propension - relativement bien équilibrées sur les avantages et les inconvénients de l'utilisation des scores de propension, avec des illustrations tirées d'études réelles. Il y a également deux bons articles sur l'utilisation des scores de propension dans les études observationnelles ou l'épidémiologie environnementale il y a deux ans dans Statistics in Medicineet j'en joins deux à la fin (3-6). Mais j'aime la critique de Pearl (7) car elle offre une perspective plus large sur les problèmes de causalité (les PS sont discutés p. 117 et 130). De toute évidence, vous trouverez de nombreuses autres illustrations en consultant la recherche appliquée. Je voudrais ajouter deux articles récents de William R Shadish qui sont tombés sur le site Web d'Andrew Gelman (11,12). L'utilisation des scores de propension est discutée, mais les deux articles se concentrent plus largement sur l'inférence causale dans les études observationnelles (et comment elle se compare aux paramètres randomisés).

Les références

  1. Oakes, JM et Church, TR (2007). Commentaire invité: Faire progresser les méthodes de score de propension en épidémiologie . American Journal of Epidemiology , 165 (10), 1119-1121.
  2. Hernan MA et Robins JM (2006). Instruments d'inférence causale: le rêve d'un épidémiologiste? Epidemiology , 17, 360-72.
  3. Rubin, D. (2007). La conception par rapport à l'analyse des études observationnelles pour les effets causaux: Parallèles à la conception des essais randomisés . Statistics in Medicine , 26, 20–36.
  4. Shrier, I. (2008). Lettre à l'éditeur . Statistics in Medicine , 27, 2740–2741.
  5. Pearl, J. (2009). Remarques sur la méthode du score de propension . Statistics in Medicine , 28, 1415–1424.
  6. Stuart, EA (2008). Élaboration de recommandations pratiques pour l'utilisation des scores de propension: discussion de «Une évaluation critique de l'appariement des scores de propension dans la littérature médicale entre 1996 et 2003» par Peter Austin . Statistics in Medicine , 27, 2062-2065.
  7. Pearl, J. (2009). Inférence causale dans les statistiques: un aperçu . Enquêtes statistiques , 3, 96-146.
  8. Oakes, JM et Johnson, PJ (2006). Correspondance des scores de propension pour l'épidémiologie sociale . Dans Methods in Social Epidemiology , JM Oakes et S. Kaufman (éd.), Pp. 364-386. Jossez-Bass.
  9. Höfler, M (2005). Inférence causale basée sur des contrefactuels . BMC Medical Research Methodology , 5, 28.
  10. Winkelmayer, WC et Kurth, T. (2004). Scores de propension: aide ou battage médiatique? Transplantation de dialyse en néphrologie , 19 (7), 1671-1673.
  11. Shadish, WR, Clark, MH et Steiner, PM (2008). Les expériences non randomisées peuvent-elles fournir des réponses précises? Une expérience randomisée comparant les affectations aléatoires et non aléatoires . JASA , 103 (484), 1334-1356.
  12. Cook, TD, Shadish, WR et Wong, VC (2008). Trois conditions dans lesquelles les expériences et les études observationnelles produisent des estimations causales comparables: nouveaux résultats des comparaisons intra-étude . Journal of Policy Analysis and Management , 27 (4), 724–750.

11

Les scores de propension sont généralement utilisés dans la littérature correspondante. Les scores de propension utilisent des covariables avant traitement pour estimer la probabilité de recevoir un traitement. Essentiellement, une régression (soit juste OLS régulière ou logit, probit, etc.) est utilisée pour calculer le score de propension avec le traitement, car vos variables de résultat et de prétraitement sont vos covariables. Une fois une bonne estimation du score de propension obtenue, les sujets ayant des scores de propension similaires, mais différents traitements reçus, sont appariés les uns aux autres. L'effet du traitement est la différence de moyenne entre ces deux groupes.

Rosenbaum et Rubin (1983) montrent que l'appariement des sujets traités et des témoins en utilisant uniquement le score de propension est suffisant pour éliminer tout biais dans l'estimation de l'effet du traitement provenant des covariables de prétraitement observées utilisées pour construire le score. Notez que cette preuve nécessite l'utilisation du vrai score de propension, plutôt qu'une estimation. L'avantage de cette approche est qu'elle transforme un problème d'appariement en plusieurs dimensions (une pour chaque covariable de prétraitement) en un cas d'appariement univarié --- une grande simplification.

Rosenbaum, Paul R. et Donald B. Rubin. 1983. « Le rôle central du score de propension dans les études observationnelles pour les effets de causalité ». Biometrika. 70 (1): 41--55.


8

Seul un essai prospectif randomisé peut déterminer la causalité. Dans les études observationnelles, il y aura toujours la possibilité d'une covariable non mesurée ou inconnue, ce qui rend impossible l'attribution d'une causalité.

Cependant, les essais observationnels peuvent fournir des preuves d'une forte association entre x et y, et sont donc utiles pour la génération d'hypothèses. Ces hypothèses doivent ensuite être confirmées par un essai randomisé.


Je suis entièrement d'accord avec vous. Une étude observationnelle peut être utile pour découvrir certaines associations que l'on peut tester à son tour en utilisant un cadre beaucoup plus rigoureux (essai randomisé comme vous le suggérez).
Sympa

Expression soignée. Je ne peux pas être plus d'accord avec vous avec le mot «association forte» entre x et y.
Kevin Kang

7

La question semble impliquer deux choses qui devraient vraiment être considérées séparément. La première est de savoir si l'on peut inférer la causalité à partir d'une étude observationnelle, et là-dessus, vous pouvez opposer les vues de, disons, Pearl (2009), qui soutient oui tant que vous pouvez modéliser le processus correctement, par rapport à la vue @propofol, qui trouver de nombreux alliés dans les disciplines expérimentales et qui peuvent partager certaines des pensées exprimées dans un essai (plutôt obscur mais néanmoins bon) de Gerber et al (2004). Deuxièmement, en supposant que vous pensez que la causalité peut être déduite des données d'observation, vous pourriez vous demander si les méthodes de score de propension sont utiles à cette fin. Les méthodes de score de propension comprennent diverses stratégies de conditionnement ainsi que la pondération de propension inverse. Lunceford et Davidian (2004) présentent une belle revue.

Une petite ride cependant: l'appariement et la pondération des scores de propension sont également utilisés dans l'analyse des expériences randomisées lorsque, par exemple, il y a un intérêt à calculer les "effets indirects" et également lorsqu'il y a des problèmes d'attrition ou d'abandon potentiellement non aléatoires ( auquel cas ce que vous avez ressemble à une étude observationnelle).

Les références

Gerber A et al. 2004. «L'illusion d'apprendre de la recherche observationnelle». Dans Shapiro I, et al, Problems and Methods in the Study of Politics , Cambridge University Press.

Lunceford JK, Davidian M. 2004. "Stratification et pondération via le score de propension dans l'estimation des effets de traitement causal: une étude comparative." Statistiques en médecine 23 (19): 2937–2960.

Pearl J. 2009. Causality (2e éd.) , Cambridge University Press.


Heureusement que vous citez tout le livre de Pearl.
chl

0

La sagesse conventionnelle stipule que seuls les essais contrôlés randomisés (expériences "réelles") peuvent identifier la causalité.

Cependant, ce n'est pas aussi simple que cela.

Une raison pour laquelle la randomisation peut ne pas être suffisante est que, dans les "petits" échantillons, la loi du grand nombre n'est pas "assez forte" pour garantir que toutes les différences sont équilibrées. La question est: qu'est-ce qui est «trop petit» et quand commence «assez grand»? Saint-Mont (2015) soutient ici que «assez grand» pourrait bien commencer par milliers (n> 1000)!

Après tout, il s'agit d'équilibrer les différences entre les groupes, de contrôler les différences. Ainsi, même dans les expériences, un grand soin doit être pris pour équilibrer les différences entre les groupes. Selon les calculs de Saint-Mont (2015), il se pourrait bien que dans des échantillons plus petits, on puisse considérablement être mieux avec des échantillons appariés (équilibrés manuellement).

Quant à la probabilité. Bien sûr, la probabilité n'est jamais en mesure de donner une réponse concluante - sauf si la probabilité est extrême (zéro ou un). Cependant, en science, nous nous sommes retrouvés fréquemment confrontés à des situations où nous ne sommes pas en mesure de fournir une réponse concluante car les choses sont difficiles. D'où le besoin de probabilité. La probabilité n'est rien d'autre qu'un moyen d'exprimer notre incertitude dans une déclaration. En tant que tel, il est similaire à la logique; voir Briggs (2016) ici .

Ainsi, la probabilité nous aidera mais ne donnera pas de réponses concluantes, aucune certitude. Mais c'est d'une grande utilité - pour exprimer l'incertitude.

Notez également que la causalité n'est pas principalement une question statistique. Supposons que deux moyennes diffèrent "de manière significative". Cela ne signifie-t-il pas que la variable de regroupement est la cause de la différence dans la variable mesurée? Non pas forcément). Quelle que soit la statistique particulière utilisée - score de propension, valeurs de p, facteurs de Bayes, etc. - de telles méthodes ne sont (pratiquement) jamais suffisantes pour étayer les allégations causales.

En utilisant notre site, vous reconnaissez avoir lu et compris notre politique liée aux cookies et notre politique de confidentialité.
Licensed under cc by-sa 3.0 with attribution required.