Que dire des modèles de données d'observation en l'absence d'instruments?

10

J'ai eu dans le passé un certain nombre de questions posées à mon sujet concernant des articles publiés dans un certain nombre de domaines où des régressions (et des modèles connexes, tels que des modèles de panel ou des GLM) sont utilisées sur des données d'observation (c'est-à-dire des données non produites par une expérience contrôlée) , dans de nombreux cas - mais pas toujours - données observées dans le temps) mais où aucune tentative d'introduction de variables instrumentales n'est effectuée.

J'ai fait un certain nombre de critiques en réponse (telles que la description de problèmes de biais lorsque des variables importantes peuvent être manquantes), mais comme d'autres personnes ici seront sans doute beaucoup plus compétentes que moi sur ce sujet, je me suis dit que je demanderais:

Quels sont les principaux problèmes / conséquences d'essayer de tirer des conclusions sur les relations (en particulier, mais sans s'y limiter, les conclusions causales) dans de telles situations?
Peut-on faire quelque chose d'utile avec des études qui correspondent à de tels modèles en l'absence d'instruments?
Quelles sont les bonnes références (livres ou articles) sur les problèmes liés à une telle modélisation (de préférence avec une motivation non technique claire des conséquences, car généralement les personnes qui demandent ont des antécédents variés, certains sans beaucoup de statistiques) auxquels les gens pourraient se référer pour critiquer un document? Une discussion des précautions / problèmes avec les instruments serait également utile.

(Les références de base sur les variables instrumentales sont ici , bien que si vous en avez à ajouter, cela serait utile aussi.)

Des pointeurs vers de bons exemples pratiques de recherche et d'utilisation d'instruments seraient un bonus mais ne sont pas au cœur de cette question.

[Je vais probablement indiquer aux autres de bonnes réponses ici car de telles questions me viennent. Je peux ajouter un ou deux exemples au fur et à mesure que je les obtiens.]

— Glen_b -Reinstate Monica
source

8

Donc, la grande majorité de mon domaine (mais pas la partie dans laquelle je travaille le plus) est concernée par cela - l'ajustement des modèles de type GLM aux données d'observation. Pour la plupart, les variables instrumentales sont une rareté, soit en raison d'un manque de familiarité avec la technique ou, plus important encore, du manque d'un bon instrument. Pour répondre à vos questions dans l'ordre:

Le problème majeur est, bien sûr, une sorte de confusion résiduelle d'une variable non observée qui est associée à la fois à l'exposition et au résultat d'intérêt. La version en langage clair est que votre réponse peut être fausse, mais vous ne savez pas nécessairement comment ni pourquoi. Les décisions prises sur ces informations (comme l'utilisation ou non d'un traitement particulier, le danger de X chose dans l'environnement, etc.) sont des décisions prises en utilisant des informations erronées.
Je dirais que la réponse à cette question est oui parce que, dans la plupart des cas, ces études tentent d'arriver à quelque chose où il n'y a pas nécessairement un bon instrument, ou où la randomisation est impossible. Donc, en fin de compte, l'alternative est "juste deviner". Ces modèles sont, à tout le moins, une formalisation de nos pensées et une tentative solide de se rapprocher de la réponse, et sont plus faciles à saisir.

Par exemple, vous pouvez demander à quel point le biais devrait être sérieux pour modifier qualitativement votre réponse (c'est-à-dire "Oui, X est mauvais pour vous ..."), et évaluer si vous pensez ou non qu'il est raisonnable qu'il y ait un facteur inconnu de cette force qui se cache en dehors de vos données.

Par exemple, la constatation selon laquelle l'infection par le VPH est extrêmement fortement associée au cancer du col de l'utérus est une constatation importante, et la force d'un facteur non mesuré qui fausserait tout le chemin vers le zéro devrait être incroyablement forte.

De plus, il convient de noter qu'un instrument ne résout pas ce problème - ils ne fonctionnent qu'en l'absence d'associations non mesurées également, et même les essais randomisés souffrent de problèmes (abandon différentiel entre le traitement et les contrôles, tout changement de comportement après la randomisation, généralisabilité au réel population cible) qui sont également un peu masquées.

Rothman, Greenland et Lash ont écrit la dernière édition de Modern Epidemiology, qui est essentiellement un livre consacré à essayer de les faire de la meilleure façon possible.

— Fomite
source

8

Contrairement au point de vue de l'épidémiologiste montré par Fomite, les variables instrumentales sont une boîte à outils essentielle en économie qui est enseignée assez tôt. La raison en est que la recherche économique se concentre actuellement sur la recherche de réponses aux questions causales, ce qui va jusqu'à un point où de simples corrélations sont même considérées comme inintéressantes. La principale limitation est que l'économie est un domaine où il est intrinsèquement difficile de faire des expériences randomisées. Si je veux savoir quel est l'effet d'un décès parental précoce sur les résultats scolaires à long terme d'un enfant, la plupart des gens s'opposeraient à le faire via une piste de contrôle aléatoire - et à juste titre. Ce document d'un cours du MIT décrit à la page 3-5 quels sont les autres problèmes liés aux expériences.

Pour aborder chaque point tour à tour:

Selon la question à laquelle il faut répondre, ce ne sont pas seulement des variables omises qui peuvent invalider les analyses sur les données d'observation sans l'utilisation de méthodes non expérimentales. Les problèmes de sélection, les erreurs de mesure, la causalité inverse ou la simultanéité peuvent être tout aussi importants. Le principal problème est que l'analyste de données doit être conscient des limites de ce paramètre. Cela se réfère principalement à l'analyse de rentabilisation, car dans un scénario académique, cela serait découvert rapidement. Parfois, je vois des analystes de marché qui veulent estimer une élasticité-prix pour informer un client (par exemple, de combien la demande diminue-t-elle si nous augmentons les prix de $x\%$ ), ils estiment donc une équation de la demande et oublient ou ignorent complètement le fait que la demande et l'offre sont déterminées simultanément et que l'une affecte l'autre. Les conséquences dépendent donc beaucoup plus de la prise de conscience du chercheur / analyste des données en ce qui concerne les limites des données plutôt que les données elles-mêmes, mais les conséquences qui en résultent peuvent aller de quelque chose de trivial à une étendue où elles affectent négativement la vie des gens.
Montrer des corrélations peut être utile parfois, cela dépend vraiment de la question. Lorsque vous recherchez un effet causal, il suffit également d'avoir une expérience naturelle. Les données du recensement au Chili peuvent être observationnelles, mais si vous voulez savoir comment le dernier tremblement de terre a affecté le niveau de scolarité (où les tremblements de terre sont sans doute exogènes), les données observationnelles peuvent également répondre à une question causale.
Il est également possible dans une certaine mesure d'évaluer l'endogénéité sans instruments (voir page 9 dans le document ci-dessus, «Estimation de l'étendue du biais des variables omises»). Pour un traitement binaire non expérimental $D_i$ vous pouvez calculer l'effet de ce traitement, faire de même pour les inobservables et demander quelle doit être l'ampleur du décalage dans les inobservables afin d'expliquer l'effet de traitement observé. Si le décalage non observé doit être très important, nous pouvons être un peu plus confiants envers nos conclusions. La référence en est Altonji, Elder et Taber (2000) .
Tout économiste appliqué recommanderait probablement Angrist et Pischke (2009) «Economies principalement inoffensives». Même si ce livre est principalement destiné aux étudiants diplômés et aux chercheurs, il est possible de sauter les parties mathématiques et d'obtenir simplement l'intuition qui est également bien expliquée. Ils introduisent d'abord l'idée d'un cadre expérimental, puis tendent vers l'OLS et ses limites en ce qui concerne l'endogénéité des variables omises, la simultanéité, la sélection, etc., puis discutent en détail des variables instrumentales avec une bonne part d'exemples de la littérature appliquée. Ils discutent également des problèmes avec des variables instrumentales telles que des instruments faibles ou en utilisant trop d'entre eux. Angrist et Krueger (2001) fournissent également un aperçu non technique des variables instrumentales et des pièges potentiels, et ils ont également un tableau qui résume plusieurs études et leurs instruments.

Tout cela a probablement été beaucoup plus long qu'une réponse typique ici, mais la question est très large. Je voudrais juste souligner le fait que les variables instrumentales (qui sont souvent difficiles à trouver) ne sont pas la seule balle dans notre poche. Il existe d'autres méthodes non expérimentales pour découvrir les effets causals des données d'observation telles que la différence dans les différences, les plans de discontinuité de régression, l'appariement ou la régression à effets fixes (si nos facteurs de confusion sont invariants dans le temps). Tous ces éléments sont examinés dans Angrist et Pischke (2009) et dans le document lié au début.

— Andy
source