Cohérence de 2SLS avec la variable endogène binaire

J'ai lu que l'estimateur 2SLS est toujours cohérent même avec la variable endogène binaire ( http://www.stata.com/statalist/archive/2004-07/msg00699.html ). Dans un premier temps, un modèle de traitement probit sera exécuté au lieu d'un modèle linéaire.

Existe-t-il une preuve formelle pour montrer que 2SLS est toujours cohérent même lorsque la 1ère étape est un modèle probit ou logit?

Et si le résultat est également binaire? Je comprends que si nous avons un résultat binaire et une variable endogène binaire (les premier et deuxième stades sont tous deux des modèles probit / logit binaires), imiter la méthode 2SLS produira une estimation incohérente. Y a-t-il une preuve formelle pour cela? Le livre économétrique de Wooldridge a une certaine discussion mais je pense qu'il n'y a aucune preuve rigoureuse pour montrer l'incohérence.

data sim;
     do i=1 to 500000;
        iv=rand("normal",0,1);
             x2=rand("normal",0,1);
        x3=rand("normal",0,1);
        lp=0.5+0.8*iv+0.5*x2-0.2*x3;
        T=rand("bernoulli",exp(lp)/(1+exp(lp)));
        Y=-0.8+1.2*T-1.3*x2-0.8*x3+rand("normal",0,1);
        output;
     end;
     run;

****1st stage: logit model ****;
****get predicted values   ****;         
proc logistic data=sim descending;
     model T=IV;
     output out=pred1 pred=p;
     run;

****2nd stage: ols model with predicted values****;
proc reg data=pred1;
     model y=p;
     run;

le coefficient de p = 1.19984. Je n'exécute qu'une seule simulation mais avec un échantillon de grande taille.

probit instrumental-variables endogeneity

— Vincent
source

N'avez-vous pas besoin d'ajouter link = probit à la déclaration de modèle?

— Mike Hunter

Il y a eu une question similaire concernant une première étape probit et une deuxième étape OLS. Dans la réponse, j'ai fourni un lien vers des notes qui contiennent une preuve formelle de l'incohérence de cette régression qui est officiellement connue sous le nom de "régression interdite", comme l'a appelé Jerry Hausman. La principale raison de l'incohérence de l'approche probit premier étage / OLS deuxième étage est que ni l'opérateur d'anticipation ni l'opérateur de projection linéaire ne passent par un premier étage non linéaire. Par conséquent, les valeurs ajustées d'un probit de première étape ne sont pas corrélées avec le terme d'erreur de deuxième étape dans le cadre d'hypothèses très restrictives qui ne tiennent pratiquement jamais en pratique. Sachez cependant que la preuve formelle de l'incohérence de la régression interdite est assez élaborée, si je me souviens bien.

Si vous avez un modèle où est un résultat continu et est une variable endogène binaire, vous pouvez exécuter la première étape via OLS et utilisez les valeurs ajustées au lieu de dans la deuxième étape. Il s'agit du modèle de probabilité linéaire auquel vous faisiez référence. Étant donné qu'il n'y a pas de problème pour les attentes ou les projections linéaires pour cette première étape linéaire, vos estimations 2SLS seront cohérentes bien que moins efficaces qu'elles ne le seraient si nous tenions compte de la nature non linéaire de .

Y_{i} = α + β X_{i} + ϵ_{i}

$Y_i = \alpha + \beta X_i + \epsilon_i$

Y_{i}

$Y_i$

X_{i}

$X_i$

X_{i} = a + Z_{i}^{'} π + η_{i}

$X_i = a + Z'_i\pi + \eta_i$

{\hat{X}}_{i}

$\widehat{X}_i$

X_{i}

$X_i$

X_{i}

$X_i$

La cohérence de cette approche découle du fait que même si un modèle non linéaire peut correspondre plus étroitement à la fonction des attentes conditionnelles pour des variables dépendantes limitées, cela n'a pas beaucoup d'importance si vous êtes intéressé par l'effet marginal. Dans le modèle de probabilité linéaire, les coefficients eux-mêmes sont des effets marginaux évalués à la moyenne, donc si l'effet marginal à la moyenne est ce que vous recherchez (et généralement les gens le sont), alors c'est ce que vous voulez étant donné que le modèle linéaire donne le meilleur linéaire approximations des fonctions d'espérance conditionnelle non linéaires.
Il en va de même si est également binaire. $Y_i$

Pour une discussion plus détaillée à ce sujet, jetez un œil aux excellentes notes de cours de Kit Baum sur ce sujet. À partir de la diapositive 7, il discute de l'utilisation du modèle de probabilité linéaire dans le contexte 2SLS.

Enfin, si vous voulez vraiment utiliser probit parce que vous voulez des estimations plus efficaces, il y a une autre manière qui est également mentionnée dans Wooldridge (2010) "Analyse économétrique des données transversales et de panel". La réponse liée ci-dessus l'inclut, je la répète ici pour être complète. Comme exemple appliqué, voir Adams et al. (2009) qui utilisent une procédure en trois étapes qui se déroule comme suit:

utiliser probit pour régresser la variable endogène sur le (s) instrument (s) et les variables exogènes
utiliser les valeurs prédites de l'étape précédente dans une première étape OLS avec les variables exogènes (mais sans les variables instrumentales)
faire la deuxième étape comme d'habitude

Cette procédure ne tombe pas pour le problème de régression interdit mais fournit potentiellement des estimations plus efficaces de votre paramètre d'intérêt.

— Andy
source

Salut Andy, merci pour ta réponse. Suggérez-vous «l'incohérence de l'approche probit première étape / OLS deuxième étape»? Ce n'est pas ce que j'ai lu dans le lien que j'ai donné. L'approche Probit First Stage / OLS Second Stage serait cohérente.

— Vincent

Ce n'est pas ce que dit le post Statalist. Si vous regardez la section "méthodes et formule" de la commande treatreg (qui s'appelle maintenant etregress) dans la documentation, vous verrez que l'estimateur en 2 étapes n'est pas 2SLS avec un premier étage probit / deuxième étage OLS. Au lieu de cela, le probit est d'abord utilisé pour obtenir les ratios de risque qui sont ensuite utilisés dans une régression OLS pour obtenir des estimations cohérentes.

— Andy

Merci, Andy. Ça devient intéressant. Il semble imiter 2SLS avec le modèle probit dans la 1ère étape n'est pas accepté. Je vais lire "interdire la régression" pour des raisons théoriques. Au fait, j'ai essayé une simulation en utilisant SAS et les résultats ne semblent pas mauvais pour 2SLS avec probit 1st / ols 2nd.

— Vincent

Je poste le code dans la question principale et j'aimerais entendre vos commentaires. Merci!

— Vincent