Comment interpréter le coefficient de deuxième étape dans la régression des variables instrumentales avec un instrument binaire et une variable endogène binaire?

(message assez long, désolé. Il comprend de nombreuses informations générales, alors n'hésitez pas à passer à la question en bas.)

Intro: Je travaille sur un projet où nous essayons d'identifier l'effet d'une variable endogène binaire, , sur un résultat continu, . Nous avons mis au point un instrument, , que nous croyons fermement être assigné de manière aléatoire. $x_1$ $y$ $z_1$

Données: Les données elles-mêmes sont dans une structure de panel avec environ 34 000 observations réparties sur 1 000 unités et environ 56 périodes. prend une valeur de 1 pour environ 700 (2%) des observations, et fait pour environ 3000 (9%). 111 observations (0,33%) obtiennent un 1 à la fois sur et sur , et il est deux fois plus probable qu'une observation obtienne un 1 sur si elle obtient également un 1 sur . $x_1$ $z_1$ $z_1$ $x_1$ $x_1$ $z_1$

Estimation: Nous estimons le modèle 2SLS suivant par la procédure ivreg2 de Stata:

X_{1} = π_{0} + π_{1} z_{1} + Z π + v

$x_1 = \pi_0 + \pi_1z_1 + \mathbf{Z}\mathbf{\pi} + v$

y = β_{0} + β_{1} X_{1}^{*} + Z β + u

$y = \beta_0 + \beta_1 x_1^* + \mathbf{Z}\mathbf{\beta} + u$

Lorsque est un vecteur d'autres variables exogènes, est la valeur prédite de partir du premier stade, et et sont des termes d'erreur. $Z$ $x_1^*$ $x_1$ $u$ $v$

Résultats: Tout semble bien fonctionner; l'estimation de est hautement significative dans la première étape et l'estimation de est hautement significative dans la deuxième étape. Tous les signes sont conformes aux attentes, y compris ceux des autres variables exogènes. Le problème est cependant que l'estimation de - le coefficient d'intérêt - est invraisemblable (ou, du moins, selon la façon dont nous l'avons interprétée). $\pi_1$ $\beta_1$ $\beta_1$

$y$ varie d'environ 2 à environ 26 avec une moyenne et une médiane de 17, mais l'estimation de varie de 30 à 40 (selon les spécifications)! $\beta_1$

Faible IV: Notre première pensée a été que cela était dû au fait que l'instrument était trop faible; c'est-à-dire, pas très corrélé avec la variable endogène, mais cela ne semble pas vraiment être le cas. Pour inspecter la faiblesse de l'instrument, nous utilisons le paquet faible de Finlay, Magnusson et Schaffer, car il fournit des tests robustes aux violations de l' hypothèse (ce qui est pertinent ici, étant donné que nous avons des données de panel et regroupons nos SE à niveau de l'unité). $i.i.d.$

Selon leur test AR, la borne inférieure de l'intervalle de confiance à 95% pour le coefficient de deuxième étape se situe entre 16 et 29 (là encore selon les spécifications). La probabilité de rejet est pratiquement 1 pour toutes les valeurs proches de zéro.

Observations influentes: Nous avons essayé d'estimer le modèle avec chaque unité supprimée individuellement, avec chaque observation supprimée individuellement et avec des groupes d'unités supprimés. Pas de vrai changement.

Solution proposée: Quelqu'un a proposé de ne pas résumer l'effet estimé du instrumenté dans sa métrique d'origine (0-1), mais dans la métrique de sa version prédite. varie de -0,01 à 0,1 avec une moyenne et une médiane d'environ 0,02 et un écart-type d'environ 0,018. Si nous devions résumer l'effet estimé de par, disons, une augmentation d'un écart type de , ce serait (d'autres spécifications donnent des résultats presque identiques). Ce serait beaucoup plus raisonnable (mais toujours substantiel). Semble être la solution parfaite. Sauf que je n'ai jamais vu personne faire ça; tout le monde semble simplement interpréter le coefficient de deuxième étape en utilisant la métrique de la variable endogène d'origine. $x_1$ $x_1^*$ $x_1$ $x_1^*$ $0.018*30 = 0.54$

Question: Dans un modèle IV, est-il correct de résumer l'effet estimé (le TARD, vraiment) d'une augmentation de la variable endogène en utilisant la métrique de la version prédite de celle-ci? Dans notre cas, cette métrique est une probabilité prédite.

Remarque: Nous utilisons 2SLS même si nous avons une variable endogène binaire (faisant de la première étape un LPM). Cela fait suite à Angrist et Krueger (2001): «Variables instrumentales et recherche d'identification: de l'offre et de la demande aux expériences naturelles»). Nous avons également essayé la procédure en trois étapes utilisée dans Adams, Almeida et Ferreira (2009): « Comprendre la relation entre le fondateur et le PDG et la performance de l'entreprise ». Cette dernière approche, qui consiste en un modèle probit suivi de 2SLS, donne des coefficients plus petits et plus sensibles, mais ils sont toujours très importants s'ils sont interprétés dans la métrique 0-1 (environ 9-10). Nous obtenons les mêmes résultats avec des calculs manuels que nous le faisons avec l'option probit-2sls dans ivtreatreg de Cerulli.

— Bertel
source

As-tu essayé etregress/treatreg?

— Dimitriy V. Masterov

Salut Dimitriy, merci pour la réponse! J'ai essayé etregress maintenant, et cela donne des résultats quelque peu similaires. Cependant, en lisant le manuel de Stata et Wooldridge (2002): "Analyse économétrique des données transversales et de panel", j'ai l'impression que ce type de modèle de traitement-régression suppose l'ignorance du traitement. Autrement dit, sous réserve des variables observées, le fait qu'une unité soit traitée ou non est indépendant de son résultat (potentiel) sous traitement et contrôle.

— Bertel

x

$x$

{\hat{β}}_{1} = β_{1} + \frac{C o v (z_{1}, u)}{C o v (z_{1}, x_{1})}

$\hat{\beta}_1 = \beta_1 + \frac{Cov(z_1,u)}{Cov(z_1,x_1)}$

β_{1}

$\beta_1$

$\beta_1$ $\alpha_1$

y = α_{0} + α_{1} z_{1} + Z α + u

$y = \alpha_0 + \alpha_1 z_1 + \mathbf{Z}\mathbf{\alpha} + u$

$\pi_1$

X_{1} = π_{0} + π_{1} z_{1} + Z π + v

$x_1 = \pi_0 + \pi_1z_1 + \mathbf{Z}\mathbf{\pi} + v$

$\beta_1$ $\alpha_1$ $\pi_1$

$\alpha_1$ $\pi_1$ $\hat{\alpha}_1$ $\hat{\pi}_1$ $\hat{\beta}_1$

— Peter
source