Hypothèse de normalité dans la régression linéaire


11

En tant qu'hypothèse de régression linéaire, la normalité de la distribution de l'erreur est parfois à tort "étendue" ou interprétée comme le besoin de normalité du y ou du x.

Est-il possible de construire un scénario / ensemble de données où les X et Y ne sont pas normaux mais où le terme d'erreur est et donc les estimations de régression linéaire obtenues sont valides?


5
Exemple trivial: X a une distribution de Bernoulli (c'est-à-dire en prenant les valeurs 0 ou 1); Y = X + N (0, 0,1). Ni X ni Y ne sont normalement distribués seuls, mais régresser Y sur X fonctionne toujours.
Hong Ooi

Je suppose que vous pensez à la distribution des résidus, pas à la distribution des variables.
tashuhka


Réponses:


16

Développer le commentaire de Hong Oois avec une image. Voici une image d'un ensemble de données où aucun des marginaux n'est normalement distribué mais les résidus le sont toujours, donc les hypothèses de régression linéaire sont toujours valides:

entrez la description de l'image ici

L'image a été générée par le code R suivant:

library(psych)
x <- rbinom(100, 1, 0.3)
y <- rnorm(length(x), 5 + x * 5, 1)

scatter.hist(x, y, correl=F, density=F, ellipse=F, xlab="x", ylab="y")
En utilisant notre site, vous reconnaissez avoir lu et compris notre politique liée aux cookies et notre politique de confidentialité.
Licensed under cc by-sa 3.0 with attribution required.