Pourquoi la normalité des résidus est-elle «à peine importante du tout» aux fins de l'estimation de la droite de régression?

21

Gelman et Hill (2006) écrivent à la p46 que:

L'hypothèse de régression qui est généralement la moins importante est que les erreurs sont normalement distribuées. En fait, aux fins de l'estimation de la droite de régression (par rapport à la prévision de points de données individuels), l'hypothèse de normalité est à peine importante. Ainsi, contrairement à de nombreux manuels de régression, nous ne recommandons pas de diagnostics de la normalité des résidus de régression.

Gelman et Hill ne semblent pas expliquer davantage ce point.

Gelman et Hill ont-ils raison? Si oui, alors:

Pourquoi "à peine important du tout"? Pourquoi n'est-ce ni important ni complètement hors de propos?
Pourquoi la normalité des résidus est-elle importante lors de la prévision de points de données individuels?

Gelman, A. et Hill, J. (2006). Analyse des données à l'aide de modèles de régression et multiniveaux / hiérarchiques. la presse de l'Universite de Cambridge

regression residuals assumptions

— user1205901 - Réintégrer Monica
source

21

Pour l' estimation, la normalité n'est pas exactement une hypothèse, mais une considération majeure serait l'efficacité; dans de nombreux cas, un bon estimateur linéaire fera l'affaire et dans ce cas (par Gauss-Markov) l'estimation LS serait la meilleure de ces choses-ce-serait-correct. (Si vos queues sont assez lourdes ou très légères, il peut être judicieux d'envisager autre chose)

Dans le cas des tests et des IC, alors que la normalité est supposée, ce n'est généralement pas si critique (encore une fois, tant que les queues ne sont pas vraiment lourdes ou légères, ou peut-être une de chacune), en ce que, du moins dans pas très- petits échantillons, les tests et les IC typiques ont tendance à avoir des propriétés proches de leur valeur nominale (pas trop loin du niveau de signification ou de la couverture revendiqués) et à bien fonctionner (puissance raisonnable pour des situations typiques ou des IC pas trop larges que les alternatives) - lorsque vous vous déplacez plus loin du cas normal, la puissance peut être plus problématique, et dans ce cas, les grands échantillons n'améliorent généralement pas l'efficacité relative, donc lorsque la taille des effets est telle que la puissance est médiocre dans un test avec une puissance relativement bonne, elle peut être très mauvaise pour les tests qui supposent la normalité.

Cette tendance à se rapprocher des propriétés nominales des IC et des niveaux de signification dans les tests est due à plusieurs facteurs opérant ensemble (dont l'un est la tendance des combinaisons linéaires de variables à avoir une distribution proche de la normale tant qu'il y a beaucoup de valeurs impliquées et aucun d'entre eux ne contribue à une grande partie de la variance totale).

Cependant, dans le cas d'un intervalle de prédiction basé sur l'hypothèse normale, la normalité est relativement plus critique, car la largeur de l'intervalle dépend fortement de la distribution d'une valeur unique . Cependant, même là, pour la taille d'intervalle la plus courante (intervalle de 95%), le fait que de nombreuses distributions unimodales ont très près de 95% de leur distribution à environ 2 sds de la moyenne a tendance à se traduire par des performances raisonnables d'un intervalle de prédiction normal même lorsque la distribution n'est pas normale. [Cela ne se transmet pas aussi bien à des intervalles beaucoup plus étroits ou plus larges - disons un intervalle de 50% ou un intervalle de 99,9% - cependant.]

— Glen_b -Reinstate Monica
source

"La tendance des combinaisons linéaires de variables à avoir une distribution proche de la normale." - Je suppose que ce n'est pas connecté au théorème de la limite centrale. C'est ça? Sinon, quel genre de "théorème" est cette affirmation?

— Heisenberg

1

@Heisenberg Il a une connexion avec des versions particulières du CLT, oui. (voir les versions Lyapunov et Lindeberg ici ). Si vous voulez qu'un théorème s'applique aux échantillons finis, nous examinons une version du théorème de Berry-Esseen. Mais l'énoncé se voulait plus une observation (d'où l'utilisation du mot "tendance") qu'un théorème.

— Glen_b -Reinstate Monica

7

2: Lors de la prévision de points de données individuels, l'intervalle de confiance autour de cette prédiction suppose que les résidus sont normalement distribués.

Ce n'est pas très différent de l'hypothèse générale sur les intervalles de confiance - pour être valide, nous devons comprendre la distribution, et l'hypothèse la plus courante est la normalité. Par exemple, un intervalle de confiance standard autour d'une moyenne fonctionne parce que la distribution des moyennes de l'échantillon se rapproche de la normalité, nous pouvons donc utiliser la distribution az ou t

— zbicycliste
source