Le principal problème ici est la nature du biais variable omis . Wikipédia déclare:
Deux conditions doivent être remplies pour qu'un biais de variable omise existe dans la régression linéaire:
- la variable omise doit être un déterminant de la variable dépendante (c'est-à-dire que son véritable coefficient de régression n'est pas nul); et
- la variable omise doit être corrélée avec une ou plusieurs des variables indépendantes incluses (c.-à-d. cov (z, x) n'est pas égal à zéro).
Il est important de bien noter le deuxième critère. Vos bêtas ne seront biaisés que dans certaines circonstances. Plus précisément, s'il y a deux variables qui contribuent à la réponse qui sont corrélées l'une avec l'autre, mais que vous n'en incluez qu'une seule, alors (essentiellement) les effets des deux seront attribués à la variable incluse, provoquant un biais dans l'estimation de ce paramètre. Donc, peut-être que certains de vos bêtas sont biaisés, pas nécessairement tous.
Une autre possibilité inquiétante est que si votre échantillon n'est pas représentatif de la population (ce qu'il est rarement vraiment), et que vous omettez une variable pertinente, même si elle n'est pas corrélée avec les autres variables, cela pourrait provoquer un décalage vertical qui biaiserait votre estimation de la intercepter. Par exemple, imaginez une variable,Z, augmente le niveau de la réponse et que votre échantillon est tiré de la moitié supérieure de la Z distribution, mais Zn'est pas inclus dans votre modèle. Ensuite, votre estimation de la réponse moyenne de la population (et de l'ordonnée à l'origine) sera biaisée en dépit du fait queZn'est pas corrélé avec les autres variables. De plus, il est possible qu'il y ait une interaction entreZet les variables de votre modèle. Cela peut également provoquer des biais sansZétant corrélé avec vos variables (je discute de cette idée dans ma réponse ici .)
Maintenant, étant donné que dans son état d'équilibre, tout est finalement corrélé avec tout dans le monde, nous pourrions trouver tout cela très troublant. En effet, lors de recherches observationnelles, il est préférable de toujours supposer que chaque variable est endogène .
Il y a cependant des limites à cela (cf., Inégalité de Cornfield ). Premièrement, la réalisation de véritables expériences rompt la corrélation entre une variable focale (le traitement) et toute variable explicative par ailleurs pertinente, mais non observée. Il existe certaines techniques statistiques qui peuvent être utilisées avec des données d'observation pour tenir compte de ces confusions non observées (prototypiquement: régression des variables instrumentales , mais aussi d'autres).
Mis à part ces possibilités (elles représentent probablement une minorité d'approches de modélisation), quelle est la perspective à long terme pour la science? Cela dépend de l'ampleur du biais et du volume de recherches exploratoires qui sont effectuées. Même si les chiffres sont quelque peu décalés, ils peuvent souvent être dans le quartier et suffisamment proches pour que des relations puissent être découvertes. Ensuite, à long terme, les chercheurs peuvent clarifier les variables pertinentes. En effet, les modélisateurs échangent parfois explicitement un biais accru contre une variance réduite dans les distributions d'échantillonnage de leurs paramètres (cf. ma réponse ici ). À court terme, il convient de toujours se souvenir de la célèbre citation de Box:
Tous les modèles sont faux, mais certains sont utiles.
Il y a aussi ici une question philosophique potentiellement plus profonde: qu'est-ce que cela signifie que l'estimation est biaisée? Quelle est censée être la «bonne» réponse? Si vous collectez des données d'observation sur l'association entre deux variables (appelez-lesX & Oui), ce que vous obtenez est finalement la corrélation marginale entre ces deux variables. Ce n'est que le «mauvais» nombre si vous pensez que vous faites autre chose et que vous obtenez plutôt l'association directe. De même, dans une étude visant à développer un modèle prédictif, ce qui vous importe, c'est de savoir si, à l'avenir, vous pourrez deviner avec précision la valeur d'une inconnueOui d'un connu X. Si vous le pouvez, peu importe si c'est (en partie) parce queX est corrélé avec Z qui contribue à la valeur résultante de Oui. Vous vouliez pouvoir prédireOui, et tu peux.
samples from (Y,X1,....Xn) and then a bunch of conditions by which the OLS estimations behave quite well.
c'est vraiment ce que vous vouliez dire ou une partie de votre peine a été interrompue. Vous avez également une faute d'orthographe dans le titre de la question.