Dans quelle mesure un modèle de régression est-il incorrect lorsque les hypothèses ne sont pas remplies?

Lors de l'ajustement d'un modèle de régression, que se passe-t-il si les hypothèses des résultats ne sont pas remplies, en particulier:

Que se passe-t-il si les résidus ne sont pas homoscédastiques? Si les résidus montrent une tendance à la hausse ou à la baisse dans les résidus par rapport au tracé ajusté.
Que se passe-t-il si les résidus ne sont pas normalement distribués et échouent au test de Shapiro-Wilk? Le test de normalité de Shapiro-Wilk est un test très strict, et parfois même si le tracé Normal-QQ semble quelque peu raisonnable, les données échouent au test.
Que se passe-t-il si un ou plusieurs prédicteurs ne sont pas normalement distribués, ne semblent pas corrects sur le tracé Normal-QQ ou si les données échouent au test de Shapiro-Wilk?

Je comprends qu'il n'y a pas de division dure en noir et blanc, que 0,94 est vrai et 0,95 est faux, et dans la question, je veux savoir:

Que signifie l'échec de la normalité pour un modèle qui correspond bien à la valeur R-Squared. Devient-il moins fiable ou complètement inutile?
Dans quelle mesure, l'écart est acceptable, ou est-il acceptable du tout?
Lors de l'application de transformations sur les données pour répondre aux critères de normalité, le modèle s'améliore-t-il si les données sont plus normales (valeur P plus élevée sur le test de Shapiro-Wilk, meilleure recherche sur un tracé QQ normal), ou inutile (tout aussi bon ou mauvais par rapport à l'original) jusqu'à ce que les données passent le test de normalité?

— SpeedBirdNine
source

Je pense que la réponse au titre seulement est "Oui".

— Thomas Cleberg

@ThomasCleberg Réponse intéressante. Est-ce aussi ce que vous dites lorsque les gens vous demandent "Comment ça va?" :)

— JohnK

Non, mais c'est s'ils me demandent si je suis vivant. :)

— Thomas Cleberg

Une question de base à vous poser: "Pourquoi voulez-vous utiliser le modèle de régression?"

— Floris

Que se passe-t-il si les résidus ne sont pas homoscédastiques? Si les résidus montrent une tendance à la hausse ou à la baisse dans Residuals vs. Fitted plot.

Si le terme d'erreur n'est pas homoscédastique (nous utilisons les résidus comme proxy pour le terme d'erreur non observable), l'estimateur OLS est toujours cohérent et non biaisé mais n'est plus le plus efficace dans la classe des estimateurs linéaires. C'est maintenant l'estimateur GLS qui bénéficie de cette propriété.

Que se passe-t-il si les résidus ne sont pas normalement distribués et échouent au test de Shapiro-Wilk? Le test de normalité de Shapiro-Wilk est un test très strict, et parfois même si le tracé Normal-QQ semble quelque peu raisonnable, les données échouent au test.

La normalité n'est pas requise par le théorème de Gauss-Markov. L'estimateur OLS est toujours BLEU mais sans normalité, vous aurez du mal à faire l'inférence, c'est-à-dire les tests d'hypothèse et les intervalles de confiance, au moins pour les tailles d'échantillon finies. Il reste cependant le bootstrap.

Asymptotiquement, cela pose moins de problème puisque l'estimateur OLS a une distribution normale limite dans des conditions de régularité modérées.

Que se passe-t-il si un ou plusieurs prédicteurs ne sont pas normalement distribués, ne semblent pas corrects sur le tracé Normal-QQ ou si les données échouent au test de Shapiro-Wilk?

Autant que je sache, les prédicteurs sont soit considérés comme fixes, soit la régression est conditionnelle. Cela limite l'effet de la non-normalité.

Que signifie l'échec de la normalité pour un modèle qui correspond bien à la valeur R-Squared. Devient-il moins fiable ou complètement inutile?

Le R au carré est la proportion de la variance expliquée par le modèle. Cela ne nécessite pas l'hypothèse de normalité et c'est une mesure de la qualité de l'ajustement malgré tout. Si vous voulez l'utiliser pour un test F partiel, c'est une toute autre histoire.

Dans quelle mesure, l'écart est acceptable, ou est-il acceptable du tout?

Écart par rapport à la normalité, vous voulez dire, non? Cela dépend vraiment de vos objectifs car comme je l'ai dit, l'inférence devient difficile en l'absence de normalité mais n'est pas impossible (bootstrap!).

Lors de l'application de transformations sur les données pour répondre aux critères de normalité, le modèle s'améliore-t-il si les données sont plus normales (valeur P plus élevée sur le test de Shapiro-Wilk, meilleure recherche sur un tracé QQ normal), ou inutile (tout aussi bon ou mauvais par rapport à l'original) jusqu'à ce que les données passent le test de normalité?

En bref, si vous avez toutes les hypothèses de Gauss-Markov plus la normalité, alors l'estimateur OLS est le meilleur sans biais (BUE), c'est-à-dire le plus efficace dans toutes les classes d'estimateurs - le Cramer-Rao Lower Bound est atteint. C'est souhaitable bien sûr mais ce n'est pas la fin du monde si cela ne se produit pas. Les remarques ci-dessus s'appliquent.

En ce qui concerne les transformations, gardez à l'esprit que si la distribution de la réponse pourrait être rapprochée de la normalité, l'interprétation pourrait ne pas être simple par la suite.

Ce ne sont que quelques réponses courtes à vos questions. Vous semblez particulièrement préoccupé par les implications de la non-normalité. Dans l'ensemble, je dirais que ce n'est pas aussi catastrophique que les gens le croient (ont été convaincus?) Et qu'il existe des solutions de contournement. Les deux références que j'ai incluses sont un bon point de départ pour une lecture plus approfondie, la première étant de nature théorique.

Références :

Hayashi, Fumio. : "Econometrics.", Princeton University Press, 2000

Kutner, Michael H. et al. «Modèles statistiques linéaires appliqués», McGraw-Hill Irwin, 2005.

— JohnK
source

Y

$Y$

X_{i}

$X_i$

β_{i}

$\beta_i$

y

$\mathbf{y}$

β_{i}

$\beta_i$

β_{i}

$\beta_i$

Y

$Y$

Y_{1}, \dots, Y_{n}

$Y_1,\ldots,Y_n$

@DeltaIV Qu'entendez-vous par "modèle idéal"? C'est le vrai modèle qui est linéaire dans les paramètres. Cela ne nous limite cependant pas à ne considérer comme estimateurs que les fonctions linéaires de la réponse. Le MJ déclare que si nous limitons notre attention dans les fonctions linéaires de la réponse, alors l'OLS est BLEU sous certaines hypothèses supplémentaires. Maintenant, si nous supposons aussi la normalité, quelle que soit la fonction de la réponse que vous envisagez , vous ne pouvez tout simplement pas faire mieux que l'OLS, à condition bien sûr que l'estimateur ne soit pas biaisé.

— JohnK

Y_{i}

$Y_i$

β_{i}

$\beta_i$