Un commentaire dans une autre question a soulevé des doutes quant à l'importance de la condition , arguant qu'elle peut être corrigée par l'inclusion d'un terme constant dans la spécification de régression, et ainsi "il peut être facilement ignoré".E(u∣X)=0
Ce n'est pas le cas. L'inclusion d'un terme constant dans la régression absorbera la moyenne conditionnelle éventuellement non nulle du terme d'erreur si nous supposons que cette moyenne conditionnelle est déjà une constante et non une fonction des régresseurs . C'est l'hypothèse cruciale qui doit être faite indépendamment du fait que nous incluions ou non un terme constant:
E(u∣X)=const.
Si tel est le cas, alors la moyenne non nulle devient une nuisance que nous pouvons simplement résoudre en incluant un terme constant.
Mais si cela ne tient pas , (c'est-à-dire si la moyenne conditionnelle n'est pas une constante nulle ou non nulle ), l'inclusion du terme constant ne résout pas le problème: ce qu'il "absorbera" dans ce cas est une magnitude cela dépend de l'échantillon spécifique et des réalisations des régresseurs. En réalité, le coefficient inconnu attaché à la série de uns, n'est pas vraiment une constante mais variable, selon les régresseurs à travers la moyenne conditionnelle non constante du terme d'erreur.
Qu'est-ce que cela implique?
Pour simplifier, supposons le cas le plus simple, où ( i indexe les observations) mais que E ( u i ∣ x i ) = h ( x i ) . C'est-à-dire que le terme d'erreur est indépendant de la moyenne des régresseurs, sauf de ses contemporains (dans X, nous n'en incluons pas une série de uns).E(ui∣X−i)=0iE(ui∣xi)=h(xi)X
Supposons que nous spécifions la régression avec l'inclusion d'un terme constant (un régresseur d'une série de termes).
y=a+Xβ+ε
et notation de compactage
y=Zγ+ε
où , Z = [ 1 : X ] , γ = ( a , ß ) ' , ε = u - a .a=(a,a,a...)′Z=[1:X]γ=(a,β)′ε=u−a
Ensuite, l'estimateur OLS sera
γ^=γ+(Z′Z)−1Z′ε
Pour être sans biais, nous avons besoin de . MaisE[ε∣Z]=0
E[εi∣xi]=E[ui−a∣xi]=h(xi)−a
qui ne peut pas être nul pour tout , puisque nous examinons le cas où h ( x i ) n'est pas une fonction constante. Doncih(xi)
E[ε∣Z]≠0⟹E(γ^)≠γ
et
Si , alors même si nous incluons un terme constant dans la régression, l'estimateur OLS ne sera pas sans biais , ce qui signifie également que le résultat de Gauss-Markov sur l'efficacité est perduE(ui∣xi)=h(xi)≠h(xj)=E(uj∣xj) .
De plus, le terme d'erreur a une moyenne différente pour chaque i , et donc aussi une variance différente (c'est-à-dire qu'il est hétéroscédastique conditionnellement). Sa distribution conditionnelle aux régresseurs diffère donc selon les observations i . εii
Mais cela signifie que même si le terme d'erreur est supposée normale, la distribution de l'erreur d'échantillonnage γ - γ est normale , mais pas zéro moyenne Mormal, et biais inconnu. Et la variance sera différente. Doncuiγ^−γ
Si , alors même si nous incluons un terme constant dans la régression, le test d'hypothèse n'est plus valide.E(ui∣xi)=h(xi)≠h(xj)=E(uj∣xj)
En d'autres termes, les propriétés "échantillon fini" ont toutes disparu.
Il nous reste seulement la possibilité de recourir à une inférence asymptotiquement valide , pour laquelle nous devrons faire des hypothèses supplémentaires.
Autrement dit, l' exogénéité stricte ne peut pas être «facilement ignorée» .