C'est la question très standard sur les variables instrumentales des modèles linéaires à équation simple. Compte tenu des primitives de votre question, la seule variable endogène est l' exercice . Pour répondre à cette question particulière, vous avez besoin d'une variable exogène, z , qui remplit deux conditions:
- cov (z, u) = 0.
- Il doit exister une relation entre la variable endogène et cette variable exogène que vous proposez mais qu'elle ne faisait pas partie du véritable modèle postulé (le modèle structurel). En d'autres termes,
e x e r c i s e =β0+β1un ge +β2w e i gh t +β3h e i gh t +β4m a l e +β5w o r k + φ z+εe x e r c i s e
avec ϕ ≠ 0, E(εe x e r c i s e) = 0et orthogonales à toutes vos variables explicatives (autres que l'exercice) et à z.
Avant de poursuivre, une remarque. Par modèle structurel, je veux dire, suivant la convention de Wooldridge et Goldberger, le modèle postulé. Autrement dit, le modèle qui énonce la relation causale entre la santé et vos covariables. Il s'agit d'une différence clé et d'un désaccord avec les réponses précédentes.
Maintenant, de retour au problème, la condition 2 est ce que dans la littérature des équations simultanées appelle l'équation de forme réduite , qui n'est rien d'autre qu'une projection linéaire de l'endogène sur toutes les variables exogènes, y compris z.
Maintenant, branchez le formulaire réduit dans votre modèle postulé et vous obtiendrez
h e a l t h =α0+α1un ge +α2w e i gh t +α3h e i gh t +α4m a l e +α5w o r k + δz+ ν
où
αje=bje+b6βje,∀ i ∈ { 1 , … , 5 },
δ=b6ϕ et
ν= u +b6εe x e r c i s e. Par la définition de la projection linéaire,
ν n’est pas corrélé avec toutes les variables explicatives et donc l’OLS de cette dernière équation produira des estimations
αje et
δ, pas le sous-jacent
bje dans le vrai modèle.
L'identification nécessite un peu de manipulation sous forme matricielle mais essentiellement elle se réduit à la condition dite de rang . Définirb =(b0, … ,b6)′ et x =(1,age , … , e x e r c i s e)′ de sorte que votre modèle structurel est h e a l t h =X′b +u. Définissez maintenantz ≡(1,age , ... , w o r k , z)′. Par la condition 1 (cov (z, u) = 0 pour que E (z, u) = 0),
E ( z u)=0
Si vous multipliez les côtés bots du modèle structurel par
z et prenez vos attentes
E ( zX′) b = E ( z y)
La condition de rang indique que
E ( zX′)est le rang complet de la colonne. Dans cet exemple particulier et compte tenu des conditions sur z, cela équivaut à
r a n k ( E ( zX′) = 6. Nous avons donc 6 équations dans 6 inconnues. Il existe donc une solution unique pour le système, à savoir
b est identifié et est égal à
[ E ( zX′)]- 1E ( z y), comme voulu.
Remarques: La condition 1 est utile pour obtenir la condition de moment mais le modèle de forme réduite avec ϕest crucial pour la condition de rang. Les deux conditions sont habituelles.
À ce stade, il devrait être clair pourquoi avons-nous besoin de cela. D'une part, sans z L'estimateur OLS du vrai modèle produira des estimateurs non cohérents non seulement pourb6 mais pour tous bje. D'un autre côté (et quelque peu liés), nos paramètres sont identifiés de manière unique, nous sommes donc certains d'estimer la véritable relation causale comme indiqué dans notre vrai modèle.
En ce qui concerne les tests, la condition 2 (z et exercice sont partiellement corrélés) peut être testée directement et vous devez toujours signaler cette étape contrairement au commentaire dans une réponse précédente. Il existe une énorme littérature sur cette étape, en particulier la littérature sur les instruments faibles.
La deuxième condition ne peut néanmoins pas être testée directement. Parfois, vous pourriez invoquer la théorie économique pour justifier ou fournir des hypothèses alternatives qui soutiennent l'utilisation de z.