Dans quelle mesure la régression multiple peut-elle réellement «contrôler» les covariables?

Nous connaissons tous des études observationnelles qui tentent d'établir un lien de causalité entre un prédicteur X non randomisé et un résultat en incluant chaque facteur de confusion potentiel imaginable dans un modèle de régression multiple. En argumentant ainsi, en «contrôlant pour» tous les facteurs de confusion, nous isolons l'effet du prédicteur de l'intérêt.

Je développe un malaise croissant avec cette idée, basée principalement sur des remarques spontanées faites par divers professeurs de mes cours de statistiques. Ils entrent dans quelques catégories principales:

1. Vous ne pouvez contrôler que les covariables auxquelles vous pensez et que vous mesurez.
C’est évident, mais je me demande si c’est réellement le plus pernicieux et le plus insurmontable de tous.

2. L’approche a conduit à de mauvaises erreurs dans le passé.

Par exemple, Petitti et Freedman (2005) expliquent comment des études d’observation ajustées statistiquement sur des décennies ont abouti à des conclusions désastreusement incorrectes sur l’effet du traitement hormonal substitutif sur le risque de cardiopathie. Des ECR ultérieurs ont révélé des effets presque opposés.

3. La relation prédicteur-résultat peut se comporter de manière étrange lorsque vous contrôlez les covariables.

Yu-Kang Tu, Gunnell et Gilthorpe (2008) discutent de différentes manifestations, notamment le paradoxe de Lord, le paradoxe de Simpson et les variables de suppression.

4. Il est difficile pour un modèle unique (régression multiple) de prendre en compte les covariables et de modéliser simultanément la relation prédicteur-résultat.

J'ai entendu cette explication comme étant la raison de la supériorité de méthodes telles que les scores de propension et la stratification sur les facteurs de confusion, mais je ne suis pas sûre de bien comprendre.

5. Le modèle ANCOVA exige que la covariable et le prédicteur de l'intérêt soient indépendants.

Bien sûr, nous ajustons les facteurs de confusion précisément parce qu'ils sont en corrélation avec le prédicteur d'intérêt. Il semble donc que le modèle échouera dans les cas exacts où nous le souhaitons le plus. L'argument avancé est que l'ajustement n'est approprié que pour la réduction du bruit dans les essais randomisés. Miller & Chapman, 2001 donnent une excellente critique.

Donc mes questions sont:

Quelle est la gravité de ces problèmes et d’autres que je ne connais peut-être pas?
À quel point devrais-je avoir peur quand je vois une étude qui "contrôle tout"?

(J'espère que cette question ne va pas trop loin dans le débat et invite toutes les suggestions pour l'améliorer.)

EDIT : J'ai ajouté le point 5 après avoir trouvé une nouvelle référence.

multiple-regression ancova observational-study

— demi-passe
source

Pour la question 2, je pense que «les contrôles pour tout» est une question plus générale de spécification. J'ai du mal à penser à une situation où un modèle paramétrique est correctement spécifié. Cela dit, un modèle simplifie la réalité et c’est là que réside l’art de ce type d’études. Le chercheur doit décider ce qui est important ou non dans le modèle.

— kirk

Avec cette question, vous avez fait de moi un fan.

— rolando2

Je pense que cela soulève de très bons points; mais je pense que les réponses sortent du domaine strictement statistique. Ainsi, tout résultat statistique est plus précieux s'il 1) est répliqué 2) est substantiellement viable, etc. Voir également les critères MAGIC et l'argument général avancé par Abelson.

— Peter Flom - Rétablir Monica

Le point 5 est absolument faux. Le document de Miller & Chapman est complètement faux, c'est tout.

— Jake Westfall

@ half-pass Vous ne savez pas quoi dire à ce sujet si ce n'est que l'affirmation centrale du document, à savoir que le prédicteur focal X et la covariable C doivent être non corrélés, est tout simplement fausse. Notez que ANCOVA est juste un modèle de régression, donc ce même raisonnement invaliderait apparemment presque toutes les utilisations réelles de la régression multiple! Il y a plusieurs mois, j'ai eu une discussion Twitter sur cet horrible article: twitter.com/CookieSci/status/902298218494644228

— Jake Westfall

Réponses:

Il existe une réponse de plus en plus largement acceptée, non statistique peut-être - à quelles hypothèses faut-il s’appuyer pour affirmer qu’on a vraiment contrôlé les covariables.

Cela peut être fait avec les graphiques de causalité de Judea Pearl et le calcul .

Voir http://ftp.cs.ucla.edu/pub/stat_ser/r402.pdf ainsi que d’autres documents sur son site Web.

En tant que statisticiens, nous savons que tous les modèles sont faux et la vraie question statistique est celle de l'hypothèse identifiée qui ne devrait pas être trop fausse, de sorte que notre réponse est à peu près correcte. Pearl en est consciente et en discute dans son travail, mais peut-être pas assez explicitement et souvent pour éviter de frustrer de nombreux statisticiens qui prétendent avoir une réponse (ce qui, je crois, est le sien, quelles sont les hypothèses à faire? ).

(Actuellement, l'ASA offre un prix pour le matériel pédagogique afin d'inclure ces méthodes dans les cours de statistiques, voir ici )

— Phaneron
source

Excellente référence à une représentation graphique élégante, merci.

— demi-passe

Réponse à la question 1:

L’importance de la gravité est mieux évaluée de manière contextuelle (c’est-à-dire que tous les facteurs contribuant à la validité devraient être pris en compte).
L’importance de la gravité ne doit pas être évaluée de manière catégorique. Un exemple est la notion de hiérarchie d'inférence pour les plans d'étude (par exemple, les rapports de cas sont les plus bas et les ECR sont les plus élevés). Ce type de schéma est fréquemment enseigné dans les facultés de médecine comme une méthode heuristique facile permettant d’identifier rapidement des données probantes de grande qualité. Le problème avec ce type de pensée est qu’il est algorithmique et trop déterministe en réalité, la réponse est elle-même surdéterminée. Lorsque cela se produit, vous pouvez oublier la manière dont des ECR mal conçus peuvent donner des résultats pires que ceux d'une étude observationnelle bien conçue.
Voir cette revue facile à lire pour une discussion complète des points ci-dessus du point de vue d'un épidémiologiste (Rothman, 2014) .

Réponse à la question 2:

Avoir très peur. Pour reprendre simplement ce que d’autres ont déjà dit et citer (en gros) l’ élégant texte d’introduction de Richard McElreath sur la pensée critique en modélisation statistique :

"... tous les modèles sont faux, mais certains sont utiles ..."

— Flaunk
source