Il y a eu une question similaire concernant une première étape probit et une deuxième étape OLS. Dans la réponse, j'ai fourni un lien vers des notes qui contiennent une preuve formelle de l'incohérence de cette régression qui est officiellement connue sous le nom de "régression interdite", comme l'a appelé Jerry Hausman. La principale raison de l'incohérence de l'approche probit premier étage / OLS deuxième étage est que ni l'opérateur d'anticipation ni l'opérateur de projection linéaire ne passent par un premier étage non linéaire. Par conséquent, les valeurs ajustées d'un probit de première étape ne sont pas corrélées avec le terme d'erreur de deuxième étape dans le cadre d'hypothèses très restrictives qui ne tiennent pratiquement jamais en pratique. Sachez cependant que la preuve formelle de l'incohérence de la régression interdite est assez élaborée, si je me souviens bien.
Si vous avez un modèle
où est un résultat continu et est une variable endogène binaire, vous pouvez exécuter la première étape
via OLS et utilisez les valeurs ajustées au lieu de dans la deuxième étape. Il s'agit du modèle de probabilité linéaire auquel vous faisiez référence. Étant donné qu'il n'y a pas de problème pour les attentes ou les projections linéaires pour cette première étape linéaire, vos estimations 2SLS seront cohérentes bien que moins efficaces qu'elles ne le seraient si nous tenions compte de la nature non linéaire de .
Yi=α+βXi+ϵi
YiXiXi=a+Z′iπ+ηi
XˆiXiXi
La cohérence de cette approche découle du fait que même si un modèle non linéaire peut correspondre plus étroitement à la fonction des attentes conditionnelles pour des variables dépendantes limitées, cela n'a pas beaucoup d'importance si vous êtes intéressé par l'effet marginal. Dans le modèle de probabilité linéaire, les coefficients eux-mêmes sont des effets marginaux évalués à la moyenne, donc si l'effet marginal à la moyenne est ce que vous recherchez (et généralement les gens le sont), alors c'est ce que vous voulez étant donné que le modèle linéaire donne le meilleur linéaire approximations des fonctions d'espérance conditionnelle non linéaires.
Il en va de même si est également binaire.Yi
Pour une discussion plus détaillée à ce sujet, jetez un œil aux excellentes notes de cours de Kit Baum sur ce sujet. À partir de la diapositive 7, il discute de l'utilisation du modèle de probabilité linéaire dans le contexte 2SLS.
Enfin, si vous voulez vraiment utiliser probit parce que vous voulez des estimations plus efficaces, il y a une autre manière qui est également mentionnée dans Wooldridge (2010) "Analyse économétrique des données transversales et de panel". La réponse liée ci-dessus l'inclut, je la répète ici pour être complète. Comme exemple appliqué, voir Adams et al. (2009) qui utilisent une procédure en trois étapes qui se déroule comme suit:
- utiliser probit pour régresser la variable endogène sur le (s) instrument (s) et les variables exogènes
- utiliser les valeurs prédites de l'étape précédente dans une première étape OLS avec les variables exogènes (mais sans les variables instrumentales)
- faire la deuxième étape comme d'habitude
Cette procédure ne tombe pas pour le problème de régression interdit mais fournit potentiellement des estimations plus efficaces de votre paramètre d'intérêt.