Pour répondre à votre première question, vous avez raison de dire que la sélection des échantillons est une forme spécifique d'endogénéité (voir Antonakis et al. 2010 pour un bon examen de base de l'endogénéité et des remèdes courants), mais vous n'avez pas raison de dire que la probabilité d'être traité est la variable endogène, car c'est la variable de traitement elle-même ("attribution de traitement non aléatoire") - plutôt que la probabilité d'être traité - qui est endogène dans la sélection des échantillons. Rappelons que l'endogénéité se réfère à une situation où vous avez incorrectement identifié une relation causale entre le facteur X et le facteur Y, lorsque la «relation» observée est en fait due à un autre facteur Z qui affecte à la fois X et Y. Autrement dit, étant donné un modèle de régression :
yi=β0+β1xi+...+ϵi
l'endogénéité se produit lorsqu'un ou plusieurs de vos prédicteurs sont liés au terme d'erreur dans le modèle. Autrement dit, lorsque .Cov(x,ϵ)≠0
Les causes courantes de l'endogénité comprennent:
- Variables omises (certaines choses que nous ne pouvons tout simplement pas mesurer)
- Motivation / choix
- Capacité / talent
- Auto-sélection
- Erreur de mesure
(nous aimerions inclure , mais nous n'observons que x j ∗ )xjxj∗
- Simultanéité / bidirectionnalité (chez les enfants de moins de 5 ans, la relation entre l'indicateur d'état nutritionnel «poids pour l'âge» et le fait que l'enfant ait ou non une maladie récente peut être simultanée.
Différents types de problèmes nécessitent des solutions légèrement différentes, c'est là que réside la différence entre les corrections de type IV et de type Heckman. Bien sûr, il existe des différences dans la mécanique sous-jacente de ces méthodes, mais la prémisse est la même: qui est de supprimer l'endogénéité, idéalement via une restriction d'exclusion, c'est-à-dire un ou plusieurs instruments dans le cas de l'IV ou une variable qui affecte la sélection mais pas l'issue de l'affaire Heckman.
Pour répondre à votre deuxième question, vous devez réfléchir aux différences dans les types de limitations des données qui ont donné lieu au développement de ces solutions. J'aime à penser que l'approche de la variable instrumentale (IV) est utilisée lorsqu'une ou plusieurs variables sont endogènes, et qu'il n'y a tout simplement pas de bons proxy à coller dans le modèle pour supprimer l'endogénéité, mais les covariables et les résultats sont observés pour toutes les observations. Les corrections de type Heckman, en revanche, sont utilisées lorsque vous avez une troncature, c'est-à-dire que les informations ne sont pas observées pour celles de l'échantillon où la valeur de la variable de sélection == 0.
L'approche de la variable instrumentale (IV)
Prenons l'exemple économétrique classique de la régression IV avec l'estimateur des moindres carrés à deux degrés (2SLS): l'effet de l'éducation sur les gains.
(1)Earningsi=β0+β1OwnEdi+ϵi
Ici, le niveau de réussite scolaire est endogène car il est déterminé en partie par la motivation et la capacité de l'individu, qui affectent également les revenus d'une personne. La motivation et la capacité ne sont généralement pas mesurées dans les enquêtes auprès des ménages ou économiques. L'équation 1 peut donc être écrite pour inclure explicitement la motivation et la capacité:
Earningsi=β0+{β1OwnEdi+β2Motivi+β3Abili}+ϵi (2)
Depuis et A b i lMotivAbil ne sont pas réellement observés, l'équation 2 peut s'écrire:
(3),Earningsi=β0+β1OwnEdi+ui
où (4).ui=β2Motivi+β3Abili+ϵi
Par conséquent, une estimation naïve de l'effet de la scolarité sur les gains via l'OLS serait biaisée. Cette partie que vous connaissez déjà.
Dans le passé, les gens ont utilisé l'éducation des parents comme instruments pour le niveau d'enseignement de la matière, car ils correspondent aux 3 exigences d'un instrument valide ( ):z
- doit être lié au prédicteur endogène - 𝐶 𝑜 𝑣 ( 𝑧 , 𝑥 ) ≠ 0 ,zCov(z,x)≠0
- ne peut pas être directement lié au résultat - 𝐶 𝑜 𝑣 ( 𝑧 , 𝑦 ) = 0 , etzCov(z,y)=0
- z cannot be related to the unobservable (u) characteristic (that
is, z is exogenous) – Cov(z,u)=0
When you estimate the subject's education (OwnEd) using parents' education (MomEd and DadEd) at first stage and use the predicted value of education (OwnEdˆ) to estimate Earnings at second stage, you are (in very simplistic terms), estimating Earnings based on the portion of OwnEd
Corrections de type Heckman
Comme nous l'avons établi précédemment, la sélection non aléatoire d'échantillons est un type spécifique d'endogénéité. Dans ce cas, la variable omise est la façon dont les personnes ont été sélectionnées dans l'échantillon. En règle générale, lorsque vous avez un problème de sélection d'échantillon, votre résultat n'est observé que pour ceux pour lesquels la sélection d'échantillon variable == 1
. Ce problème est également connu sous le nom de «troncature accidentelle» et la solution est communément appelée correction Heckman. L'exemple classique en économétrie est l'offre salariale des femmes mariées:
Wagei=β0+β1Educi+β2Experiencei+β3Experience2i+ϵi (5)
Wages
Wage∗i=Xβ′+ϵi (6)
LaborForce∗i=Zγ′+νi (7)
That is, Wage=Wage∗i IFF LaborForce∗i>0 and Wage=. IFF LaborForce∗i≤0
The solution here is therefore to predict the likelihood of participation in the labor force at first stage using a probit model and the exclusion restriction (the same criteria for valid instruments apply here), calculate the predicted inverse Mills ratio (λ^) for each observation, and in second stage, estimate the wage offer using the λ^ as a predictor in the model (Wooldridge 2009). If the coefficient on λ^ is statistically equal to zero, there is no evidence of sample selection (endogeneity), and OLS results are consistent and can be presented. If the coefficient on λ^ is statistically significantly different from zero, you will need to report the coefficients from the corrected model.
References
- Antonakis, John, Samuel Bendahan, Philippe Jacquart, and Rafael
Lalive. 2010. “On Making Causal Claims: A Review and
Recommendations.” The Leadership Quarterly 21 (6): 1086–1120.
doi:10.1016/j.leaqua.2010.10.010.
- Wooldridge, Jeffrey M. 2009.
Introductory Econometrics: A Modern Approach. 4th ed. Mason, OH,
USA: South-Western, Cengage Learning.