Nous connaissons tous des études observationnelles qui tentent d'établir un lien de causalité entre un prédicteur X non randomisé et un résultat en incluant chaque facteur de confusion potentiel imaginable dans un modèle de régression multiple. En argumentant ainsi, en «contrôlant pour» tous les facteurs de confusion, nous isolons l'effet du prédicteur de l'intérêt.
Je développe un malaise croissant avec cette idée, basée principalement sur des remarques spontanées faites par divers professeurs de mes cours de statistiques. Ils entrent dans quelques catégories principales:
1. Vous ne pouvez contrôler que les covariables auxquelles vous pensez et que vous mesurez.
C’est évident, mais je me demande si c’est réellement le plus pernicieux et le plus insurmontable de tous.
2. L’approche a conduit à de mauvaises erreurs dans le passé.
Par exemple, Petitti et Freedman (2005) expliquent comment des études d’observation ajustées statistiquement sur des décennies ont abouti à des conclusions désastreusement incorrectes sur l’effet du traitement hormonal substitutif sur le risque de cardiopathie. Des ECR ultérieurs ont révélé des effets presque opposés.
3. La relation prédicteur-résultat peut se comporter de manière étrange lorsque vous contrôlez les covariables.
Yu-Kang Tu, Gunnell et Gilthorpe (2008) discutent de différentes manifestations, notamment le paradoxe de Lord, le paradoxe de Simpson et les variables de suppression.
4. Il est difficile pour un modèle unique (régression multiple) de prendre en compte les covariables et de modéliser simultanément la relation prédicteur-résultat.
J'ai entendu cette explication comme étant la raison de la supériorité de méthodes telles que les scores de propension et la stratification sur les facteurs de confusion, mais je ne suis pas sûre de bien comprendre.
5. Le modèle ANCOVA exige que la covariable et le prédicteur de l'intérêt soient indépendants.
Bien sûr, nous ajustons les facteurs de confusion précisément parce qu'ils sont en corrélation avec le prédicteur d'intérêt. Il semble donc que le modèle échouera dans les cas exacts où nous le souhaitons le plus. L'argument avancé est que l'ajustement n'est approprié que pour la réduction du bruit dans les essais randomisés. Miller & Chapman, 2001 donnent une excellente critique.
Donc mes questions sont:
- Quelle est la gravité de ces problèmes et d’autres que je ne connais peut-être pas?
- À quel point devrais-je avoir peur quand je vois une étude qui "contrôle tout"?
(J'espère que cette question ne va pas trop loin dans le débat et invite toutes les suggestions pour l'améliorer.)
EDIT : J'ai ajouté le point 5 après avoir trouvé une nouvelle référence.