Biais variable omis dans la régression linéaire

J'ai une question philosophique concernant le biais variable omis.

Nous avons le modèle de régression typique (modèle de population) où proviennent les échantillons , puis un tas de conditions dans lesquelles les estimations de l'OLS se comportent assez bien.

Y = β_{0} + β_{1} X_{1} + . . . + β_{n} X_{n} + υ,

$Y= \beta_0 + \beta_1X_1 + ... + \beta_nX_n + \upsilon,$

(Y, X_{1}, . . ., X_{n})

$(Y,X_1,...,X_n)$

Nous savons alors que, si nous omettons l'une des principales variables, , cela pourrait biaiser les estimations de . Cela affecterait, au moins, l'effet estimé du reste des variables sur , ainsi que les tests d'hypothèse sur , car les valeurs prédites ne sont pas fiables. $X_k$ $\beta_0, \beta_1, ..., \beta_{k-1}, \beta_{k+1}, ..., \beta_n$ $Y$ $\beta_1, \beta_2, ...$

Le fait est que nous ne savons pas quelles sont les variables du vrai modèle de population. Au lieu de cela, nous avons un tas de candidats à partir desquels nous devons analyser et trouver le sous-ensemble le plus approprié. Ce processus de sélection des variables utilise à nouveau les estimations OLS et les tests d'hypothèses. Sur cette base, nous rejetons ou incluons différentes variables. Mais comme chaque modèle candidat omet des variables pertinentes (vous ne pourrez jamais trouver le vrai modèle), ces décisions ne seraient-elles pas basées sur des résultats biaisés? Pourquoi alors devrions-nous leur faire confiance?

(Je pense à la méthode pas à pas, par exemple, où vous choisissez une variable puis ajoutez le reste. Vous comparez les modèles en faisant l'inférence, et je pense que les variables omises peuvent tout perturber.)

Je n'ai jamais été trop inquiet pour ce sujet jusqu'à ce que j'y pense, et je suis sûr que je me trompe quelque part.

— Josu Momediano
source

En partie, samples from (Y,X1,....Xn) and then a bunch of conditions by which the OLS estimations behave quite well.c'est vraiment ce que vous vouliez dire ou une partie de votre peine a été interrompue. Vous avez également une faute d'orthographe dans le titre de la question.

— Andy W

Ouais, je voulais dire ça. Vous avez l'échantillon / observations, puis les conditions (Gauss-Markov), qui garantissent que les estimateurs sont les meilleurs non biaisés, etc.

— Josu Momediano

En remarque, il est très peu probable que les méthodes de sélection pas à pas (par exemple, pas à pas vers l'avant) choisissent le modèle que vous devez utiliser. Si cela n'a pas de sens, vous pouvez lire ma réponse ici: algorithmes de sélection automatique de modèle .

— gung - Reinstate Monica

Mais quelle que soit la méthode que vous utilisez (expertise incluse), vous commencez à partir de 0, et vous rencontrez à 100% le problème dont je parle ... C'est comme si le biais variable omis était là à chaque fois

— Josu Momediano

Vous avez raison de vous inquiéter. Beaucoup d'inférence est basée sur l'hypothèse que nous avons le vrai modèle. Je fais des régressions depuis longtemps et je n'ai jamais eu le vrai modèle. À mes fins, il est rarement logique de penser qu'un seul vrai modèle existe. Demandez-vous plutôt quels sont les objectifs de votre modélisation (prédiction dans l'échantillon, prédiction hors échantillon, estimation de l'effet causal moyen de x3, résumé des données, etc.) car vos objectifs indiqueront quelles stratégies de modélisation sont les meilleures.

— Michael Bishop

Le principal problème ici est la nature du biais variable omis . Wikipédia déclare:

Deux conditions doivent être remplies pour qu'un biais de variable omise existe dans la régression linéaire:

la variable omise doit être un déterminant de la variable dépendante (c'est-à-dire que son véritable coefficient de régression n'est pas nul); et

la variable omise doit être corrélée avec une ou plusieurs des variables indépendantes incluses (c.-à-d. cov (z, x) n'est pas égal à zéro).

Il est important de bien noter le deuxième critère. Vos bêtas ne seront biaisés que dans certaines circonstances. Plus précisément, s'il y a deux variables qui contribuent à la réponse qui sont corrélées l'une avec l'autre, mais que vous n'en incluez qu'une seule, alors (essentiellement) les effets des deux seront attribués à la variable incluse, provoquant un biais dans l'estimation de ce paramètre. Donc, peut-être que certains de vos bêtas sont biaisés, pas nécessairement tous.

Une autre possibilité inquiétante est que si votre échantillon n'est pas représentatif de la population (ce qu'il est rarement vraiment), et que vous omettez une variable pertinente, même si elle n'est pas corrélée avec les autres variables, cela pourrait provoquer un décalage vertical qui biaiserait votre estimation de la intercepter. Par exemple, imaginez une variable, $Z$ , augmente le niveau de la réponse et que votre échantillon est tiré de la moitié supérieure de la $Z$ distribution, mais $Z$ n'est pas inclus dans votre modèle. Ensuite, votre estimation de la réponse moyenne de la population (et de l'ordonnée à l'origine) sera biaisée en dépit du fait que $Z$ n'est pas corrélé avec les autres variables. De plus, il est possible qu'il y ait une interaction entre $Z$ et les variables de votre modèle. Cela peut également provoquer des biais sans $Z$ étant corrélé avec vos variables (je discute de cette idée dans ma réponse ici .)

Maintenant, étant donné que dans son état d'équilibre, tout est finalement corrélé avec tout dans le monde, nous pourrions trouver tout cela très troublant. En effet, lors de recherches observationnelles, il est préférable de toujours supposer que chaque variable est endogène .

Il y a cependant des limites à cela (cf., Inégalité de Cornfield ). Premièrement, la réalisation de véritables expériences rompt la corrélation entre une variable focale (le traitement) et toute variable explicative par ailleurs pertinente, mais non observée. Il existe certaines techniques statistiques qui peuvent être utilisées avec des données d'observation pour tenir compte de ces confusions non observées (prototypiquement: régression des variables instrumentales , mais aussi d'autres).

Mis à part ces possibilités (elles représentent probablement une minorité d'approches de modélisation), quelle est la perspective à long terme pour la science? Cela dépend de l'ampleur du biais et du volume de recherches exploratoires qui sont effectuées. Même si les chiffres sont quelque peu décalés, ils peuvent souvent être dans le quartier et suffisamment proches pour que des relations puissent être découvertes. Ensuite, à long terme, les chercheurs peuvent clarifier les variables pertinentes. En effet, les modélisateurs échangent parfois explicitement un biais accru contre une variance réduite dans les distributions d'échantillonnage de leurs paramètres (cf. ma réponse ici ). À court terme, il convient de toujours se souvenir de la célèbre citation de Box:

Tous les modèles sont faux, mais certains sont utiles.

Il y a aussi ici une question philosophique potentiellement plus profonde: qu'est-ce que cela signifie que l'estimation est biaisée? Quelle est censée être la «bonne» réponse? Si vous collectez des données d'observation sur l'association entre deux variables (appelez-les $X$ & $Y$ ), ce que vous obtenez est finalement la corrélation marginale entre ces deux variables. Ce n'est que le «mauvais» nombre si vous pensez que vous faites autre chose et que vous obtenez plutôt l'association directe. De même, dans une étude visant à développer un modèle prédictif, ce qui vous importe, c'est de savoir si, à l'avenir, vous pourrez deviner avec précision la valeur d'une inconnue $Y$ d'un connu $X$ . Si vous le pouvez, peu importe si c'est (en partie) parce que $X$ est corrélé avec $Z$ qui contribue à la valeur résultante de $Y$ . Vous vouliez pouvoir prédire $Y$ , et tu peux.

— gung - Réintégrer Monica
source