Approche de la fonction de contrôle et Bootstrap

Commençons par supposer que j'ai des données transversales sur , , (voir ci-dessous pour , , ). $y$ $x_1$ $x_2$ $y$ $x_1$ $x_2$

Je veux estimer l'effet des variables $x_1$ et $x_2$ et leur interaction ( $x_3= x_1*x_2$ ) sur la variable $y$ utilisant l'approche de la fonction de contrôle, et il est fort probable que $x_1$ et $x_2$ soient endogènes. J'ai deux instruments, $z_1$ et $z_2$ . J'évalue les deux équations du premier étage suivantes et j'enregistre les résidus prévus de la manière suivante:

ivreg2 x1 z1 z2 
predict error1hat, residuals
ivreg2 x2 z1 z2 
predict error2hat, residuals

Une fois que j'ai enregistré les résidus prévus, j'évalue l'équation du deuxième étage de la manière suivante:

ivreg2 y x1 x2 x3 error1hat error2hat

Même si les coefficients estimés de $x_1$ , $x_2$ et $x_3$ un sens, je sais que les erreurs standard ne sont pas correctes (voir page 8 de http://eml.berkeley.edu/~train/petrintrain.pdf ).

À la page 8 de http://eml.berkeley.edu/~train/petrintrain.pdf , les auteurs suggèrent d'utiliser le bootstrap pour obtenir des erreurs standard corrigées pour $x_1$ , $x_2$ et $x_3$ .

Mes questions sont :

Comment dois-je configurer le bootstrap?
Le bootstrap est-il appliqué uniquement à l'équation du deuxième étage, ou est-il appliqué à la fois à l'équation du premier et du deuxième étage?

Supposons maintenant que j'ai des données de panneau sur , et . Tout d'abord, j'utilise la différenciation intra-groupe pour supprimer l'hétérogénéité non observée, puis j'évalue les paramètres en utilisant l'approche de la fonction de contrôle comme si les données étaient des données transversales (voir ci-dessus). Dois-je faire des ajustements supplémentaires dans le cas où j'utilise des données de panneau par rapport au cas illustré ci-dessus? $y$ $x_1$ $x_2$

— Mark Vitale-Ferrari
source

Cameron and Trivedi - Microeconometrics using Stata discutent de différentes techniques d'amorçage et des fichiers de code show Stata, par exemple, pour l'estimateur en deux étapes de Heckman.

Concernant la question 2.: Le bootstrap est en effet appliqué à la fois à l'équation du premier et du deuxième étage. Vous pouvez également démarrer uniquement la deuxième étape, mais vous devez ensuite faire d'autres hypothèses sur la distribution de vos variables prédites (bootstrap paramétrique). Dit ainsi, il est beaucoup plus simple de faire le bootstrap en deux étapes.

Concernant la question 1.:

Vous pouvez trouver des exemples de code (dans Stata) pour différents exemples ici (2SLS) ou ici (Heckman)

Voici également un petit aperçu qui est gratuit et discute de certains des sujets que vous pouvez également trouver dans le livre de Cameron et Trivedi.

Je dois dire, je pense que le sujet est souvent déroutant, en particulier si vous avez plusieurs premières étapes, j'ai également une question ouverte ici , mais sans réponses.

Mise à jour: Désolé, j'ai oublié de commenter le cas des données du panel. J'utiliserais une erreur standard robuste de cluster à chaque étape du bootstrap en deux étapes dans ce cas.

PS: Stata a un fichier d'aide assez élaboré sur l'amorçage, vous devriez également le vérifier.

— Arne Jonas Warnke
source