Biais sur-appariés et variables confondantes


8

Si je comprends bien, l'appariement est un moyen d'identifier la causalité dans les études d'observation. En faisant correspondre des observations qui sont «similaires» et en comparant celles qui ont reçu ou non un traitement, vous pouvez considérer cela comme une sorte de quasi-expérience.

Qu'est-ce que l'overmatching? Quel genre de parti pris introduit-il? J'ai surtout vu l'appariement d'un point de vue économique, mais j'ai récemment vu des articles sur l'épidémiologie suggérant que le «sur-appariement» peut entraîner des biais. Je trouve difficile de comprendre la terminologie des articles et j'apprécierais grandement que quelqu'un puisse aider à expliquer certains des principaux concepts. Voici un article qui fait référence à l'idée:

Une surappariement peut entraîner un biais. BMJ. 10 août 2002; 325 (7359)

Réponses:


11

Extrait de Modern Epidemiology 3rd Edition par Rothman, Greenland and Lash:

Il existe au moins trois formes de sur-appariement. Le premier fait référence à l'appariement qui nuit à l'efficacité statistique, comme l'appariement cas-témoins sur une variable associée à l'exposition mais pas à la maladie. Le second fait référence à l'appariement qui nuit à la validité, comme l'appariement sur un intermédiaire entre l'exposition et la maladie. Le troisième fait référence à l'appariement qui nuit à la rentabilité.

La réponse d'AndyW concerne la deuxième forme de sur-correspondance. En bref, voici comment ils fonctionnent tous:

1: Pour être un facteur de confusion, l'un des critères est que la covariable soit associée à la fois au résultat et à l'exposition. S'il n'est associé qu'à l'un d'eux, ce n'est pas un facteur de confusion, et tout ce que vous avez réussi à faire est d'élargir votre intervalle de confiance.

Pour explorer davantage ce type de sur-appariement, considérons une étude cas-témoins appariée d'une exposition binaire, avec un contrôle apparié à chaque cas sur un ou plusieurs facteurs de confusion. Chaque strate de l'analyse comprendra un cas et un contrôle, sauf si certaines strates peuvent être combinées. Si le cas et son contrôle apparié sont tous deux exposés ou non exposés, une marge du tableau 2 x 2 sera 0 ... une telle paire de sujets ne fournira aucune information à l'analyse. Si l'on stratifie sur les corrélats d'exposition, on augmentera les chances que de tels tableaux se produisent et ont donc tendance à augmenter les informations perdues dans l'analyse stratifiée.

2: Ceci est partiellement discuté par AndyW. L'appariement sur un facteur intermédiaire biaisera votre estimation, de même que l'appariement sur quelque chose affecté à la fois par l'exposition et le résultat. Il s'agit essentiellement de contrôler un collisionneur, et toute technique qui le fait faussera votre estimation.

Si, toutefois, le facteur d'appariement potentiel est affecté par l'exposition et que le facteur affecte à son tour la maladie (c.-à-d. Est une variable intermédiaire), ou est affecté à la fois par l'exposition et la maladie, alors l'appariement sur le facteur biaisera à la fois l'effet brut et l'effet ajusté estimations. Dans ces situations, l'appariement cas-témoins n'est rien de plus qu'une forme irréparable de biais de sélection.

3: Il s'agit davantage d'un problème de conception d'étude. Une correspondance étendue sur des variables sur lesquelles vous n'avez pas besoin de correspondre pour les raisons 1 et 2 peut vous amener à rejeter les contrôles facilement obtenus (amis, famille, réseau social à proximité, etc.) au profit de contrôles beaucoup plus difficiles à obtenir qui peuvent être appariés sur le ensemble inutile de covariables. Cela coûte de l'argent - de l'argent qui aurait pu être dépensé pour plus de sujets, une meilleure exposition ou une meilleure constatation de la maladie, etc., sans gain appréciable de biais ou de précision, et qui a même menacé les deux.


1
(+1) Belle réponse. Je ne suis pas si surpris de voir que le manuel de Rothman & Greenland est à nouveau une bonne référence à garder sur notre bureau, toujours à portée de main.
chl

7

Même si j'ignorais également la terminologie de «sur-appariement», un exemple de la même idée que j'ai entendue dans le jargon économique et statistique pourrait correspondre à un résultat «intermédiaire». Voir les articles d'Andrew Gelman sur le sujet

Il s'agit du même problème que celui décrit au début de l'article que vous citez ( Marsh et al., 2002 )

Si l'exposition elle-même conduit au confondant, ou a un statut égal avec elle, la stratification par le confondant se stratifiera également par l'exposition, et la relation de l'exposition à la maladie sera obscurcie. C'est ce qu'on appelle un sur-appariement ...

Gelman donne un exemple conceptuellement clair dans le post "Faire des fils vous rend-il plus conservateur". En termes simples (sans exemples), c'est juste que vous avez vos directions causales à l'envers.


1
Droite. Dans le livre de Josh Angrist, Mostly Harmless Econometrics, il qualifie les mêmes phénomènes de «mauvais contrôle». Il donne l'exemple de la régression des salaires sur l'éducation et la profession. Il s'agit d'une horrible régression, car elle est identifiée à partir des différences de formation au sein d'une profession (par exemple, si la profession était avocat, cela n'aurait aucun sens d'analyser ces différences de formation) et l'éducation est ce qui vous a permis d'être avocat! Je soupçonnais que le biais excessif était peut-être cela. Peut-être qu'un épidiomologue viendra confirmer. Merci pour les excellents liens Gelman, je vais les vérifier.
d_a_c321

1
Très intéressant et je pense que c'est un sujet important et sous-discuté.
rolando2
En utilisant notre site, vous reconnaissez avoir lu et compris notre politique liée aux cookies et notre politique de confidentialité.
Licensed under cc by-sa 3.0 with attribution required.