Quel est le lien entre des méthodes telles que l'appariement et le contrôle statistique des variables?

10

Souvent, dans les articles de recherche que vous lisez, les chercheurs ont contrôlé certaines variables. Cela peut être fait par des méthodes telles que l'appariement, le blocage, etc.

Mais j'ai toujours pensé que le contrôle des variables était quelque chose qui se faisait statistiquement en mesurant plusieurs variables qui pouvaient avoir une influence et en effectuant une analyse statistique sur celles-ci, ce qui pouvait être fait dans des expériences vraies et quasi-expérimentales. Ainsi, par exemple, vous auriez une enquête ou un autre test dans lequel vous mesureriez la variable indépendante et certaines variables éventuellement confondantes et effectueriez une analyse.

Est-il possible de contrôler les variables dans des quasi-expériences?
Quel est le lien entre des méthodes telles que l'appariement et le contrôle statistique des variables?

experiment-design random-variable controlling-for-a-variable

— Renée Damstra
source

1

Avez-vous jeté un coup d'oeil à cette question: comment-exactement-un-contrôle-pour-d'autres-variables ?

— gung - Rétablir Monica

6

Comme avec AdamO, je pense que la clé pour répondre à cette question est la notion d'inférence causale, et comment se diriger "vers" un modèle causal en utilisant des configurations d'observation.

Dans un monde parfait, nous aurions quelque chose appelé une population contrefactuelle - la population étudiée, identique à tous égards à l'exception de la seule chose qui nous intéresse. La différence entre ces deux populations, basée sur cette différence, est un véritable résultat causal.

De toute évidence, nous ne pouvons pas avoir cela.

Il y a cependant des moyens d'essayer de s'en rapprocher:

Randomisation: Ceci théoriquement (si la randomisation est effectuée correctement) devrait vous donner deux populations identiques, à l'exception du traitement post-randomisation.
Stratification: vous pouvez regarder une population à l' intérieur de niveaux de covariables, où vous faites des comparaisons «similaires avec similaires». Cela fonctionne à merveille pour un petit nombre de niveaux, mais devient rapidement encombrant.
Appariement: L'appariement est une tentative de rassembler une population étudiée de telle sorte que le groupe A ressemble au groupe B et peut donc être comparé.
Ajustement statistique: l'inclusion de covariables dans un modèle de régression permet d'estimer un effet à l'intérieur des niveaux des covariables - encore une fois, en comparant les mêmes avec les similaires, ou du moins en tentant de le faire.

Tous sont une tentative de se rapprocher de cette population contrefactuelle. La meilleure façon d'y parvenir dépend de ce que vous voulez retirer et de l'apparence de votre étude.

— Fomite
source

Magnifique explication. Beaucoup plus concis et répond mieux à la question d'origine. Permettez-moi d'ajouter que de ces méthodes, seul l'ajustement statistique est insensible au problème d'avoir des strates vides. Dans une étude cas-témoins, si nous voulons stratifier la population par âge, l'appariement, la stratification et la randomisation (en bloc) par âge nécessitent un grossissement ou un regroupement afin de comparer un cas âgé de 50 ans à un témoin âgé de 51 ans.

— AdamO

Dans la régression logistique, cependant, vous pouvez utiliser des informations continues pour emprunter implicitement des informations entre les groupes, comme avec l'âge ajusté par spline linéaire ou de base pour faire cette comparaison. Cela fait de la modélisation de régression l'une des méthodologies statistiques les plus puissantes et utiles disponibles.

— AdamO

@AdamO D'accord - dans ma réponse à la question liée ci-dessus, je mentionne qu'il peut être utilisé pour lisser les zones de non-information, tant que ce manque d'informations est dû au hasard et au binning. Mais oui - il y a une raison pour laquelle la régression est impressionnante.

— Fomite

2

Je pense que la modélisation causale est la clé pour répondre à cette question. On est confronté au départ à identifier l'effet correct ajusté / stratifié / contrôlé d'intérêt avant même de regarder les données. Si je devais estimer la relation taille / capacité pulmonaire chez les adultes, je m'ajusterais au statut de fumeur car le tabagisme freine la croissance et influence la capacité pulmonaire. Les facteurs de confusion sont des variables qui sont liées de façon causale au prédicteur d'intérêt et sont associées au résultat d'intérêt. Voir Causality from Judea Pearl, 2e éd. Il convient de spécifier et d'alimenter leur analyse pour les variables de confusion correctes avant même que le processus de collecte de données ne commence à utiliser la logique rationnelle et les connaissances antérieures des études exploratoires précédentes.

$R^2$ pour les modèles linéaires de ces variables d'ajustement. Un autre processus courant en épidémiologie consiste à ajouter des variables au modèle uniquement si elles modifient l'estimation de l'effet principal (comme un rapport de cotes ou un rapport de risque) d'au moins 10%. Bien que ce soit "plus" correct que la sélection de modèle basée sur AIC, je pense toujours qu'il y a des mises en garde majeures dans cette approche.

Ma recommandation est de prédéfinir l'analyse souhaitée dans le cadre d'une hypothèse. Le risque de tabagisme / cancer ajusté en fonction de l'âge est un paramètre différent et conduit à une inférence différente dans le cadre d'une étude contrôlée que le risque brut de tabagisme / cancer. Utiliser la connaissance du sujet est le meilleur moyen de sélectionner des prédicteurs pour l'ajustement dans les analyses de régression, ou comme variables de stratification, d'appariement ou de pondération dans divers autres types d'analyses «contrôlées» du plan expérimental et quasi expérimental.

— AdamO
source

2

L'histoire de la relation entre l'appariement et la régression est brièvement résumée dans un article de blog ici . En bref

«Régression sur D [un indicateur de traitement] et un ensemble complet de modèles fictifs (c.-à-d. Saturés) pour X [covariables]. L'estimation résultante de l'effet de D est égale à l'appariement sur X et à la pondération entre les cellules covariables par la variance de traitement conditionnel à X "

Voir également la section 3.3 de Econometrics Mostly Harmless ou la section 5.3 de Counterfactuals and Causal Inference pour une discussion approfondie, y compris les avantages et les inconvénients de la pondération D donnée par X que la régression fournit implicitement.

@EpiGrad donne un bon départ à votre première question. Les livres liés ci-dessus le traitent presque exclusivement. Si vous n'avez pas de formation en informatique / mathématiques, vous pouvez trouver Pearl dur (bien que cela en vaille la peine!)

— conjugateprior
source