L'indépendance moyenne conditionnelle implique l'impartialité et la cohérence de l'estimateur OLS


10

Considérons le modèle de régression multiple suivant:

(1)Y=Xβ+Zδ+U.

Ici, est un vecteur de colonne ; une matrice ; a vecteur de colonne; a matrice; a vecteur de colonne; et , le terme d'erreur, un vecteur de colonne .Yn×1Xn×(k+1)β(k+1)×1Zn×lδl×1Un×1


QUESTION

Mon conférencier, le manuel Introduction to Econometrics, 3e éd. par James H. Stock et Mark W. Watson, p. 281 et Econometrics: Honor's Exam Review Session (PDF) , p. 7, m'a exprimé ce qui suit.

  1. Si nous supposons ce qu'on appelle l' indépendance moyenne conditionnelle , ce qui signifie par définition que
    (2)E(U|X,Z)=E(U|Z),
  2. et si l'hypothèse des moindres carrés est satisfaite, sauf l'hypothèse de moyenne zéro conditionnelle (nous supposons donc ) (voir 1 -3 ci-dessous),E(U|X,Z)=0E(U|X,Z)=E(U|Z)0

  3. ensuite, l'estimateur OLS de in reste sans biais et cohérent, sous cet ensemble plus faible d'hypothèses.β^β(1)

Comment prouver cette proposition? C'est-à-dire que 1 et 2 ci-dessus impliquent que l'estimation OLS de nous donne un estimateur sans biais et cohérent pour ? Existe-t-il un article de recherche prouvant cette proposition?ββ


COMMENTAIRE

Le cas le plus simple est donné en considérant le modèle de régression linéaire et prouver que l'OLS estime of est sans biais si pour chaque .

Yi=β0+β1Xi+β2Zi+ui,i=1,2,,n,
β 1 β 1 E ( u i | X iβ^1β1E(ui|Xi,Zi)=E(ui|Zi)i

PREUVE DE partons du principe que non biaisé ET SONT CONJOINTEMENT DISTRIBUE NORMALEMENTUiZi

Définissez , puis etAinsi peut être réécrit comme Par il s'ensuit alors que Or, comme et sont distribués normalement normalement conjointement, la théorie des distributions normales, cf. Dériver les distributions conditionnelles d'une distribution normale multivariée , dit que (en effet, nous n'avons pas besoin de supposer une normalité conjointe mais seulement cette identité) pour certains vecteurs parV=UE(U|X,Z)U=V+E(U|X,Z)

(*)E(V|X,Z)=0.
(1)
(3)Y=Xβ+Zδ+E(U|X,Z)+V.
(2)
(4)Y=Xβ+Zδ+E(U|Z)+V.
UiZi E ( U | Z ) = Z γ l1γ0
(**)E(U|Z)=Zγ
l1γ0 .

Maintenant devient Pour le modèle toutes les hypothèses des moindres carrés sont satisfaites, car le terme d'erreur satisfait l'hypothèse de conditionnel signifie zéro. Cela implique que l'estimation OLS de sera sans biais, car si nous laissons , et que soit le par matrice composée de et , alors l'estimation OLS de dans est donnée en considérant ce qui suit:(4)

(5)Y=Xβ+Z(δ+γ)+V.
(5)Vβ β p = δ + γ W = ( X , Z ) n ( k + 1 ) + l X Z β ( 5 )β^βρ=δ+γW=(X,Z)n(k+1)+lXZβ(5)
(β^T,ρ^T)T=(WTW)1WTY=(WTW)1WT(W(βT,ρT)T+V)=(βT,ρT)T+(WTW)1WTV

et ainsi où la deuxième ligne suit par . Ainsi, est une estimation conditionnellement non biaisée de puisque l'estimation OLS donnée pour le modèle coinicides avec celle donnée pour le modèle . Maintenant, selon la loi de l'attente totale et donc est un estimateur non biaisé pour .

E((β^T,ρ^T)T|W)=(βT,ρT)T+(WTW)1WsTE(V|W)=(βT,ρT)T+(WTW)1WT0=(βT,ρT)T,
() β β(1)β^β(1)(5)
E(β^)=E(E(β^|W))=E(β)=β,
β^β

(On peut noter que , de sorte que le coefficient sur n'est pas nécessairement sans biais.)E(ρ^)=ρ=δ+γδZ

Cependant, le cas spécial ci-dessus suppose que et sont distribués normalement normalement conjointement, comment puis-je prouver la proposition sans cette hypothèse?UiZi

En supposant que suffit toujours bien sûr (cf. ), mais je suis censé dériver le résultat en utilisant simplement et l'hypothèse des moindres carrés excluant l'hypothèse du zéro moyen conditionnel ( voir ci-dessous).E(U|Z)=Zγ()(2)

CONCERNANT LA COHÉRENCE

Je pense que l'on peut également voir que l'estimation est cohérente pour en remarquant que dans le modèle de régression toutes les hypothèses des moindres carrés sont satisfaites, y compris l'hypothèse que le (nouveau) terme d'erreur satisfait le Hypothèse conditionnelle du zéro moyen (cf. et voir ci-dessous).β^β(5)V()

J'ajouterai plus tard une preuve de cohérence qui est basée sur une série d'exercices dans Introduction to Econometrics, 3e éd. par James H. Stock et Mark W. Watson, ch. 18. Cependant, cette preuve est assez longue. Mais le fait est que la preuve fournie dans les exercices suppose , donc je me demande toujours si l'hypothèse suffit vraiment.()(2)

SOUS-DEMANDE 1

Dans Introduction to Econometrics, 3e éd. par James H. Stock et Mark W. Watson, il est dit, à la p. 300, que l'hypothèse peut être "assouplie" en utilisant la théorie de la régression non linéaire. Que veulent ou peuvent-ils dire par là?()

LES HYPOTHÈSES DES MOINS CARRÉS

Ici, j'exclus l'hypothèse de moyenne nulle conditionnelle selon laquelle puisque la proposition que nous essayons de prouver ici permet des cas où . Ce sont par exemple les cas où est en corrélation avec . Cf. Économétrie: Session d'examen de l'examen d'honneur (PDF) , p. 7.E(U|X,Z)=0E(U|X,Z)0ZU

L'hypothèse des moindres carrés est la suivante.

  1. Les distributions conjointes de , sont iid, où est le : e élément dans et où et sont les : e vecteurs de ligne dans et .(Yi,Xi,Zi)i=1,2,,n,YiiYXiZiiXZ

  2. Les grandes valeurs aberrantes sont peu probables, à savoir, pour chaque , et ont des moments finis quatrième, où est le : ième élément en .iXi,ZiUiUiiU

  3. (X,Z) a un rang de colonne complet (c'est-à-dire qu'il n'y a pas de multicolinéarité parfaite; cela garantit l'inversibilité de ).WTW

  4. ( Hypothèses des moindres carrés étendus : bien que je ne pense pas que cela soit nécessaire (et il m'a été dit que ce n'est pas le cas), nous pouvons également supposer une homoskédasticité, c'est-à-dire pour chaque , et que la distribution conditionnelle de donnée est normale pour chaque (c'est-à-dire que nous avons des erreurs normales.))Var(Ui|Xi,Zi)=σU2iUi(Xi,Zi)i

NOTE SUR LA TERMINOLOGIE

Dans , l'hypothèse du zéro moyen conditionnel est l'hypothèse que . L'hypothèse d'indépendance moyenne conditionnelle, cependant, est l'hypothèse que .(1)E(U|X,Z)=0E(U|X,Z)=E(U|Z)

Cette terminologie est utilisée par exemple dans Introduction to Econometrics, 3rd ed. par James H. Stock et Mark W. Watson, p. 281; and Econometric Analysis of Cross Section and Panel Data, 1ère éd. par Jeffrey M. Wooldridge, p. 607. Voir aussi Restrictions d'indépendance conditionnelles: tests et estimations pour des discussions similaires.

RÉFLEXIONS SUPPLÉMENTAIRES ET SOUS-REQUÊTE 2

Je pense que contrairement à James H. Stock et Mark W. Watson, l'indépendance moyenne conditionnelle ne garantit pas une estimation OLS non biaisée de . En effet, peut prendre des formes non linéaires comme où est un polynôme en , ou où est un paramètre encore à estimer (j'utilise ici la matrice exponentielle ), puis, je pense, une régression non linéaire doit être appliquée, ce qui nous laisse généralement des estimations biaisées. De plus, l'estimation OLS dans (1) de peut même ne pas coïncider avec l'estimation OLS deβE(U|Z)E(U|Z)=p(Z)p(Z)ZE(U|Z)=exp(Zγ)γβ β ( 4 ) E ( U | Z )ββen si prend certaines formes non linéaires. (Psychologiquement, je pense également que la déclaration faite dans le livre de Stock & Watson est trop belle pour être vraie.)(4)E(U|Z)

Ainsi, une question supplémentaire est de savoir s'il existe un contre-exemple à la proposition selon laquelle l'indépendance moyenne conditionnelle conduit à une estimation OLS non biaisée?

SOUS-DEMANDE 3

Dans Mostly Harmless Econometrics, Angrist & Pischke fait valoir à la sous-section 3.3, p. 68 à 91, que sous l'indépendance conditionnelle (IC), c'est-à-dire que étant indépendant de étant donné (qui est une condition plus forte, je suppose, que l'hypothèse d'indépendance moyenne conditionnelle donnée ci-dessus), il existe un lien étroit entre les estimations correspondantes de l'effet de sur et des coefficients sur dans la régression de sur et ce qui motive que sous CI l'estimation OLS du coefficient sur dansYXWXYXYXWX(1) est moins biaisé que si CI ne tient pas (toutes choses égales par ailleurs).

Maintenant, cette idée peut-elle être utilisée d'une manière ou d'une autre pour répondre à ma question principale ici?


@ Xi'an Que voulez-vous dire? C'est la définition de l'indépendance moyenne conditionnelle donnée dans mon manuel: si nous dans la régression linéaire avons , alors nous disons que nous avons l'indépendance moyenne conditionnelle. Je pensais juste que ma façon d'écrire était plus générale. Yi=β0+β1Xi+β2Zi+uiE(ui|Xi,Zi)=E(ui|Zi)
Elias

@ Xi'an Comment définiriez-vous "indépendance conditionnelle $ ce" dans ce cas? À mon avis, «indépendance conditionnelle» est un concept distinct de «indépendance moyenne conditionnelle». Ils peuvent ou non être liés conceptuellement.
Elias

@ Xi'an C'est ainsi que je comprends les concepts: l'indépendance conditionnelle est juste , mais l'indépendance moyenne conditionnelle est . E ( A | B , C ) = E ( A | C )P(AB|C)=P(A|C)P(B|C)E(A|B,C)=E(A|C)
Elias

Où est le commentaire de Xi'an?
Michael R. Chernick

@MichaelChernick Son commentaire était le premier. Je suppose qu'il a dû le supprimer. Si je me souviens bien, il a dit que n'implique pas l'indépendance conditionnelle, et j'ai répondu. E(U|X,Z)=E(U|Z)
Elias

Réponses:


4

C'est faux. Comme vous le constatez, si vous lisez attentivement Stock et Watson, ils n'approuvent pas réellement l'affirmation selon laquelle OLS n'est pas biaisé pour sous indépendance moyenne conditionnelle. Ils approuvent l'affirmation beaucoup plus faible selon laquelle OLS est sans biais pour si . Ensuite, ils disent quelque chose de vague sur les moindres carrés non linéaires.βββE(u|x,z)=zγ

Votre équation (4) contient ce dont vous avez besoin pour voir que la réclamation est fausse. L'estimation de l'équation (4) par OLS en omettant la variable conduit à un biais de variables omis. Comme vous vous en souvenez probablement, le terme de biais des variables omises (lorsque la variable omise a un coefficient de 1) est contrôlé par les coefficients de la régression auxiliaire suivante: Le biais dans la régression d'origine pour est de cette régression, et le biais sur est . Si est corrélé avec , après contrôle linéaire pourE ( u | z ) = x α 1 +E(u|x,z) βα1γα2xE(u|z

E(u|z)=xα1+zα2+ν
βα1γα2xz α 1E(u|z)z , alors sera différent de zéro et le coefficient OLS sera biaisé.α1

Voici un exemple pour prouver le point:

ξF(),ζG(),νH()all independentz=ξx=z2+ζu=z+z2E(z+z2)+ν

En regardant la formule pour , il est clair que En regardant la régression auxiliaire, il est clair que (en l'absence d'un choix fortuit de ) ne sera pas nul.E ( u | xuF , G , HE(u|x,z)=E(u|z)=z+z2E(z+z2)F,G,Hα1

Voici un exemple très simple dans Rlequel illustre le point:

set.seed(12344321)
z <- runif(n=100000,min=0,max=10)
x <- z^2 + runif(n=100000,min=0,max=20)
u <- z + z^2 - mean(z+z^2) + rnorm(n=100000,mean=0,sd=20)
y <- x + z + u

summary(lm(y~x+z))

# auxiliary regression
summary(lm(z+z^2~x+z))

Notez que la première régression vous donne un coefficient sur qui est biaisé de 0,63, reflétant le fait que "a un " comme le fait . Notez également que la régression auxiliaire vous donne une estimation du biais d'environ 0,63.x z 2 Exxz2E(u|z)

Alors, de quoi parlent Stock et Watson (et votre conférencier)? Revenons à votre équation (4):

y=xβ+zγ+E(u|z)+v

C'est un fait important que la variable omise n'est qu'une fonction de . Il semble que si nous pouvions très bien contrôler , cela suffirait à purger le biais de la régression, même si peut être corrélé avec .z x uzzxu

Supposons que nous avons estimé l'équation ci-dessous en utilisant une méthode non paramétrique pour estimer la fonction ou en utilisant la forme fonctionnelle correcte . Si nous utilisions la forme fonctionnelle correcte, nous l’estimerions par des moindres carrés non linéaires (expliquant le commentaire cryptique sur NLS): Cela nous donnerait un estimateur cohérent pour car il n'y a plus de problème de variable omise. f ( z ) = z γ + E ( u | z ) y = x β + f ( z )f()f(z)=zγ+E(u|z) β

y=xβ+f(z)+v
β

Alternativement, si nous avions suffisamment de données, nous pourrions aller `` jusqu'au bout '' en contrôlant . Nous pourrions examiner un sous-ensemble des données où , et exécuter simplement la régression: Cela donnerait des estimateurs non biaisés et cohérents pour le sauf pour l'ordonnée à l'origine, bien sûr, qui serait polluée par . De toute évidence, vous pouvez également obtenir un estimateur (différent) cohérent et non biaisé en exécutant cette régression uniquement sur les points de données pour lesquels . Et un autre pour les points où . Etc. Ensuite, vous auriez un tas de bons estimateurs à partir desquels vous pourriez faire un excellent estimateur en, disons, en faisant la moyenne de tous ensemble d'une manière ou d'une autre.z = 1 y = x β + v β f ( 1 ) z = 2 z = 3zz=1

y=xβ+v
βf(1)z=2z=3

z=1zz


3

(4)

Y=Xβ+Zδ+(E(U|Z)+V)

MZ=IZ(ZZ)1ZMZZ=0

Par "résultats de régression partitionnés", nous avons que

β^OLSβ=(XMZX)1XMZZδ+(XMZX)1XMZE(UZ)+(XMZX)1XMZV

Le premier terme à droite est déjà nul. En prenant la valeur attendue tout au long, puis en appliquant la propriété de la tour à l'attente conditionnelle, le troisième terme sera également nul (en utilisant l'indépendance moyenne conditionnelle dans sa forme la plus faible). Mais c'est aussi loin que cette hypothèse plus faible nous amène, car nous nous retrouverons avec

E(β^OLS)β=E[(XMZX)1XMZE(UZ)]

E(UZ)ZMZZ
β

E(UX,Z)=E(UZ)=Zγ

UZ

β^OLS


MZMz

1
Zz
En utilisant notre site, vous reconnaissez avoir lu et compris notre politique liée aux cookies et notre politique de confidentialité.
Licensed under cc by-sa 3.0 with attribution required.