Considérons un modèle de régression linéaire postulé
yi=b0+b1X1i+b2X2i+ui,i=1,...,n
En termes d'algèbre (et non pas d'hypothèses stochastiques), l'estimateur OLS en notation matricielle est
b^=b+(X′X)−1X′u
Sa valeur attendue conditionnée à la matrice du régresseur est donc
E(b^∣X)=b+(X′X)−1X′E(u∣X)
Donc: si "l'exogénéité stricte" des régresseurs par rapport au terme d'erreur est vraie, ou, en d'autres termes, si tous les termes d'erreur sont indépendants de la moyenne de tous les régresseurs, passés et présents, (ce qui est l'hypothèse de référence dans le classique Modèle de régression linéaire), c'est-à-dire si , nous aurons E(u∣X)=0
E(b^∣X)=b+0⇒E(b^)=b
en utilisant également la loi des attentes itérées.
Compte tenu de tout ce qui précède, que signifie «variable superflue»? Je suppose que cela signifie "sans rapport" avec la variable dépendante. Mais "sans rapport" devrait être traduit par "stochastiquement indépendant". Mais s'il est indépendant de la variable dépendante, il est nécessairement indépendant du terme d'erreur (et donc aussi strictement exogène par rapport à lui), donc tout ce qui précède vaut également pour toute variable superflue, et l'estimateur OLS est non biaisé même si, disons, la variable est "superflue" et le vrai modèle ne la contient pas. X2
C'est ainsi que les économétriciens comprennent le problème. Maintenant, dans un cadre plus général, «superflu» pourrait signifier que, disons, est indépendant de conditionnel à la présence de (ce qui, je le soupçonne, est plus proche de ce que Pearl a en tête). Pourtant, tant que est strictement exogène au terme d'erreur, le résultat de non biais est valable.X2yX1X2