13

Je travaille dans l'économie politique, et beaucoup de modèles incluent des variables de contrôle "innocentes" telles que la population, les inégalités, l'héritage colonial, etc. afin que l'auteur puisse revendiquer l'impartialité de sa variable d'intérêt indépendante.

Mais si l'une de ces variables de contrôle est endogène à une variable omise, cela ne contamine-t-il pas l'impartialité de TOUTES les variables indépendantes?

Si c'est vrai, que pouvons-nous faire? Laissez ces variables de contrôle et elles conduisent elles-mêmes à un biais de variable omis. Incluez-les et ils contamineront tout dans le modèle.

Exemple: un chercheur veut savoir si l'inégalité mène à la violence, et il contrôle plusieurs choses: Voyant que l' inégalité est susceptible d'être endogène ( en raison de la variable omise Niveau d'altruisme ), il essaiera de trouver une variable instrumentale pour les inégalités . Mais la croissance et le développement ne sont-ils pas susceptibles d'être endogènes (c'est-à-dire en corrélation avec le niveau d'altruisme ) aussi?

V i o l e n c e = I n e q u a l i t y + G r o w t h + D e v e l o p m e n t + ϵ

$\begin{equation} Violence = Inequality + Growth + Development + \epsilon \end{equation}$

Cet exemple peut sembler idiot, mais mon point est dans le travail d'économie politique / développement, il y a tellement de facteurs en jeu (pourtant omis) que je crains que de nombreuses variables incluses dans le LHS soient endogènes. Pourtant, souvent, le chercheur ne recherche un instrument que pour sa variable indépendante.

— Heisenberg
source

Encore une autre chose à considérer est le problème dit de «mauvais contrôle» - une situation où le contrôle est une variable de résultat elle-même. Je vous suggère de lire la section 3.2.3 dans le célèbre "Mostly Harmless Econometrics" d'Angrist et Pischke pour comprendre ce sujet et pourquoi c'est important si vous voulez mieux comprendre votre question.

— MauOlivares

10

"Mais si l'une de ces variables de contrôle est endogène à une variable omise, cela ne contamine-t-il pas l'impartialité de TOUTES les variables indépendantes?"

Je ne veux pas trop insister là-dessus, mais il convient de mentionner que ce n'est pas vrai en général. Nous espérons que la dérivation suivante fournira une certaine compréhension de la "contamination" que vous mentionnez. Comme contre-exemple simple, supposons que le processus de génération de données soit donné par où n'est pas observé. Soit , et . Ensuite, il est clair que est "endogène". Mais notez que parce que , notre estimation de sera toujours correcte:

Y = X_{1} β_{1} + X_{2} β_{2} + Z γ + ε,

$Y = X_1 \beta_1 + X_2 \beta_2 + Z \gamma + \varepsilon,$

Z

$Z$

C o v (X_{1}, Z) = 0

$Cov(X_1,Z) = 0$

C o v (X_{2}, Z) \neq 0

$Cov(X_2, Z) \neq 0$

C o v (X_{1}, X_{2}) = 0

$Cov(X_1,X_2) = 0$

X_{2}

$X_2$

C o v (X_{1}, Z) = 0

$Cov(X_1,Z) = 0$

β_{1}

$\beta_1$

plim {\hat{β}}_{1} = β_{1} + γ \frac{C o v (X_{1}^{*}, Z)}{V a r (X_{1}^{*})} = β_{1},

$\text{plim}\, \hat \beta_{1} = \beta_1 + \gamma \frac{Cov(X_1^*, Z)}{Var(X_1^*)} = \beta_1,$ où et . Parce que , . Donc .

X_{1}^{*} = M_{2} X_{1}

$X_1^* = M_2 X_1$

M_{2} = [I - X_{2} (X_{2}^{'} X_{2})^{- 1} X_{2}^{'}]

$M_2 = [I - X_2(X_2'X_2)^{-1}X_2']$

C o v (X_{1}, X_{2}) = 0

$Cov(X_1,X_2) = 0$

X_{1}^{*} = X_{1}

$X_1^* = X_1$

C o v (X_{1}^{*}, Z) = 0

$Cov(X_1^*,Z)=0$

"Que pouvons-nous faire?"

L'un des principaux défis d'une bonne économétrie est de penser à des stratégies d'identification potentielles. Dans le type de situation que vous décrivez, il n'y a probablement rien d'autre à faire que d'essayer d'aborder le problème différemment.

— jmbejara
source

Bien que vous ayez techniquement raison, je n'insisterais pas sur ce point. Je dirais plutôt qu'en général, nous ne pouvons pas exclure la partialité de l' une des variables, au lieu de dire que dans certains scénarios , c'est correct , car nous ne connaissons généralement pas le DGP.

— FooBar

1) Pourriez-vous m'indiquer une référence où le est dérivé de cette façon? On ne m'a pas enseigné cela dans mon économétrie. 2) Où utilisez-vous dans la preuve? Il semble que soit suffisant. 3) Je suis d'accord avec @FooBar que sont l'exception, pas la norme. En effet, si nous ne prendrions pas la peine de contrôler en premier lieu (sauf pour augmenter la précision).

\hat{β}

$\hat\beta$

C o v (X_{1}, Z) = 0

$Cov(X_1, Z)=0$

C o v (X_{1}, X - 2) = 0

$Cov(X_1, X-2)=0$

C o v (X_{1}, X_{2}) = 0

$Cov(X_1, X_2)=0$

C o v (X_{1}, X_{2}) = 0

$Cov(X_1, X_2)=0$

X_{2}

$X_2$

— Heisenberg

@FooBar, je suis d'accord. J'ai mis à jour le message pour souligner qu'il s'agit d'un cas spécial. En ce qui concerne le fait de ne pas connaître le DGP, c'est vrai. Mais ce n'est pas le but. Toute analyse doit faire des hypothèses sur le DGP et la qualité de l'analyse dépend de la qualité des hypothèses. La dérivation que j'ai donnée sert juste à illustrer un exemple des hypothèses (bien que des hypothèses très fortes) qui pourraient vous mener où vous voudriez aller.

— jmbejara

@Heisenberg: 1) Pourriez-vous ouvrir une nouvelle question principale à ce sujet? Si vous copiez et collez simplement la dérivation et présentez votre question, ce serait mieux. 2) est nécessaire lorsque je dis que . 3) Tu as raison. Si nous sommes intéressés à prédire , ce serait important. Mais oui, c'est un bon point. D'un autre côté, il est peut-être utile de noter que la taille du biais dépend de la corrélation que vous pensez que et sont.

C o v (X_{1}, Z) = 0

$Cov(X_1, Z) = 0$

C o v (X_{1}^{*}, Z) = 0

$Cov(X_1^*,Z) = 0$

Y

$Y$

X_{1}

$X_1$

X_{2}

$X_2$

— jmbejara

1

@jmbejara J'ai posté 1) une question distincte . N'hésitez pas à modifier ma question / titre, car je ne sais pas comment formuler le titre intelligemment et utile pour Googler dans ce cas.

— Heisenberg

6

Tout est trop fort, mais probablement certains. Ce problème est appelé "maculage". Jetez un œil à la preuve dans les notes de cours de Greene sur la diapositive 5.

Emily Oster a un joli document de travail (et la commande Stata psacalc) qui peut aider à limiter le biais.

— Dimitriy V. Masterov
source

5

Dans le contexte de l'estimation des moindres carrés, la façon dont nous devons (tenter de) traiter l'endogénéité possible des régresseurs est par le biais de l'estimation des variables instrumentales. Cette approche ne dépend pas du fait d'avoir un seul régresseur endogène - vous pouvez en avoir plusieurs. Dans un tel cas, bien sûr, vous devez trouver plus d'instruments qui rendent les choses plus difficiles, mais en principe, la méthode fonctionnera de la même manière.

L'estimation IV ne résout pas le problème du biais, elle fournit seulement de la cohérence à l'estimateur. Mais rien ne résout le problème de la biais de l'exogénéité stricte elle-même (et il existe ensuite des méthodes de réduction des biais). Mais si vous jetez un coup d'œil sur un autre site SE, Cross Validated , qui concerne les statistiques, vous verrez que les statisticiens chevronnés n'accordent pas vraiment beaucoup d'importance à la propriété d'impartialité - ils se concentrent sur l'efficacité quadratique moyenne pour les propriétés des échantillons finis, et sur la cohérence pour les grandes propriétés des échantillons.

— Alecos Papadopoulos
source

1

La bonne approche consiste donc à trouver des instruments pour toutes les variables endogènes, non?

— Heisenberg

1

Oui, c'est comme ça.

— Alecos Papadopoulos

5

Ceci est un exemple de ce que le statisticien Andrew Gelman appelle «l'erreur de contrôler un résultat intermédiaire». Voici sa description de cette erreur qui surgit lorsque les chercheurs demandent si avoir plus de filles change votre politique. La décision d'avoir un deuxième enfant est nécessairement conditionnelle à la décision précédente d'avoir le premier enfant, et semble donc être un exemple clair de contrôle de la variable de décision qui était endogène.

Plusieurs études ont été réalisées ces dernières années sur les décisions économiques des parents de fils par rapport aux parents de filles ... Une caractéristique commune à toutes ces études est qu'elles contrôlent le nombre total d'enfants ... À première vue, le contrôle du nombre total d'enfants semble raisonnable. Il y a cependant une difficulté dans la mesure où le nombre total d'enfants est un résultat intermédiaire, et le contrôler (que ce soit en sous-ensemble les données basées sur #kids ou en utilisant #kids comme variable de contrôle dans un modèle de régression) peut biaiser l'estimation de l'effet causal d'avoir un fils (ou une fille).

Pour voir cela, supposons (hypothétiquement) que les parents politiquement conservateurs sont plus susceptibles de vouloir des fils, et s'ils ont deux filles, ils sont (hypothétiquement) plus susceptibles d'essayer pour un troisième enfant. En comparaison, les libéraux sont plus susceptibles de s'arrêter à deux filles. Dans ce cas, si vous regardez les données sur les familles avec 2 filles, les conservateurs seront sous-représentés, et les données pourraient montrer une corrélation des filles avec le libéralisme politique - même si avoir des filles n'a aucun effet du tout! ...

Une solution consiste à appliquer l'approche standard conservatrice (au sens statistique!) De l'inférence causale, qui consiste à régresser sur votre variable de traitement (sexe de l'enfant) mais en contrôlant uniquement les choses qui se produisent avant la naissance de l'enfant. Par exemple, on pourrait comparer les parents dont le premier enfant est une fille aux parents dont le premier enfant est un garçon. On peut également regarder la deuxième naissance, en comparant les parents dont le deuxième enfant est une fille à ceux dont le deuxième enfant est un garçon, en contrôlant le sexe du premier enfant. Et ainsi de suite pour le troisième enfant, etc.

Le fait d'avoir des fils vous rend-il plus conservateur? Peut-être peut-être pas. Un problème avec le contrôle d'un résultat intermédiaire

En ce qui concerne votre commentaire selon lequel «laissez ces variables de contrôle en dehors et elles entraînent elles-mêmes un biais de variable omis», cela semble dépendre du type d'instrument que vous obtenez. Un bon instrument, qui satisfait vraiment les exigences, doit être indépendant du terme d'erreur dans la deuxième étape et être indépendant de tout ce que vous contrôlez directement . Autrement dit, l'instrument ne modifie Y que par X. Un instrument approprié pour les inégalités doit donc être indépendant de la croissance et du développement (bonne chance pour le trouver!) Si nous pensons que l'équation de la violence est l'équation structurelle de la violence.

— BKay
source

1

Comme d'autres articles l'ont souligné, les régresseurs endogènes peuvent contaminer toutes les estimations de paramètres en régression lorsque les régresseurs sont corrélés.

$X_1$ $X_2$ $X_2$ $X_1$

$\hat{\beta}_1$ $X_2$ $X_1$ $X_2$

Considérons le modèle suivant (analogue à la notation de @ jmbejara)

y = X_{1} β_{1} + X_{2} β_{2} + Z γ + ε,

$\begin{equation*} y=X_1\beta_1+X_2\beta_2+Z\gamma+\varepsilon, \end{equation*}$

$Z$ $\varepsilon$ $\frac{1}{n}{x_1^{(k)\prime}}\varepsilon\overset{p}{\rightarrow}0$ $\frac{1}{n}x_2^{(k)\prime}\varepsilon\overset{p}{\rightarrow}0$ $k$ $X_2$ $\frac{1}{n} x_{1}^{(k)\prime}z^{(l)} \overset{p}{\not\rightarrow}0$ $(k,l)$

Maintenant, si est endogène mais n'est pas dans le sens où toute corrélation entre et disparaîtra après avoir contrôlé $X_2$ $X_1$ $X_1$ $Z$ $X_2$ , c'est-à-dire,

\frac{1}{n} x_{1}^{(k)'} Q_{X_{2}} z^{(l)} \overset{p}{\to} 0

$\begin{equation} \frac{1}{n} x_1^{(k)\prime}Q_{X_2}z^{(l)} \overset{p}{\rightarrow}0 \end{equation}$ pour tous , où est la projection sur l'espace nul de (le `` créateur résiduel ''), c'est-à-dire alors tout va bien. La raison est vue par l'estimateur en deux étapes suivant de (par exemple Amemiya, 1985, pp. 6-7):

(k, l)

$(k,l)$

Q_{X_{2}}

$Q_{X_2}$

X_{2}

$X_2$

Q_{X_{2}} \equiv [I_{n} - X_{2} (X_{2}^{'} X_{2})^{- 1} X_{2}^{'}]

$Q_{X_2}\equiv [I_n - X_2(X_2'X_2)^{-1}X_2']$

β_{1}

$\beta_1$

\begin{aligned} {\hat{β}}_{1} & = (X_{1}^{'} Q_{X_{2}} X_{1})^{- 1} X_{1}^{'} Q_{X_{2}} y \\ = β_{1} + (X_{1}^{'} Q_{X_{2}} X_{1})^{- 1} X_{1}^{'} \underset{\overset{p}{\to} 0}{\underset{⏟}{Q_{X_{2}} X_{2}}} β_{2} \\ + (X_{1}^{'} Q_{X_{2}} X_{1})^{- 1} \underset{\overset{p}{\to} 0}{\underset{⏟}{X_{1}^{'} Q_{X_{2}} Z}} γ \\ + (X_{1}^{'} Q_{X_{2}} X_{1})^{- 1} \underset{\overset{p}{\to} 0}{\underset{⏟}{X_{1}^{'} Q_{X_{2}} ε}} \end{aligned}

$\begin{align*} \hat{\beta}_1 &= (X_1'Q_{X_2}X_1)^{-1}X_1'Q_{X_2}y \\ &= \beta_1 + (X_1'Q_{X_2}X_1)^{-1}X_1'\underbrace{Q_{X_2}X_2}_{\overset{p}{\rightarrow}0}\beta_2\\ &+ (X_1'Q_{X_2}X_1)^{-1}\underbrace{X_1'Q_{X_2}Z}_{\overset{p}{\rightarrow}0}\gamma \\ &+ (X_1'Q_{X_2}X_1)^{-1}\underbrace{X_1'Q_{X_2}\varepsilon}_{\overset{p}{\rightarrow}0} \end{align*}$ QED. La troisième ligne ici est la clé, et elle montre également pourquoi nous sommes en sécurité lorsque et sont pas corrélés / orthogonaux. Bonne régression endogène.

X_{1}

$X_1$

X_{2}

$X_2$

— Murphy
source

Que se passe-t-il si les «variables de contrôle» sont également endogènes?

"Mais si l'une de ces variables de contrôle est endogène à une variable omise, cela ne contamine-t-il pas l'impartialité de TOUTES les variables indépendantes?"

"Que pouvons-nous faire?"