L'hypothèse d'erreurs normales implique-t-elle que Y est également normal?

12

Sauf erreur, dans un modèle linéaire, la distribution de la réponse est supposée avoir une composante systématique et une composante aléatoire. Le terme d'erreur capture la composante aléatoire. Par conséquent, si nous supposons que le terme d'erreur est normalement distribué, cela n'implique-t-il pas que la réponse est également normalement distribuée? Je pense que oui, mais des déclarations comme celle ci-dessous semblent plutôt déroutantes:

Et vous pouvez voir clairement que la seule hypothèse de "normalité" dans ce modèle est que les résidus (ou "erreurs" ) devraient être normalement distribués. Il n'y a aucune hypothèse sur la distribution du prédicteur ou de la variable de réponse . $\epsilon_i$ $x_i$ $y_i$

Source: prédicteurs, réponses et résidus: qu'est-ce qui doit vraiment être distribué normalement?

regression assumptions

— Ernest A
source

7

Si les

ne sont pas stochastiques, la normalité de

implique la normalité de la variable dépendante. Pour les variables indépendantes stochastiques, cela ne tiendra pas en général, cela dépend alors de la distribution des variables indépendantes.

x

$x$

ϵ

$\epsilon$

19

Le modèle OLS standard est avec pour un fixe . $Y = X \beta + \varepsilon$ $\varepsilon \sim \mathcal N(\vec 0, \sigma^2 I_n)$ $X \in \mathbb R^{n \times p}$

Cela signifie en effet que , bien que cela soit une conséquence de notre hypothèse sur la distribution de , plutôt que d'être réellement l'hypothèse. Gardez à l' esprit que je parle de la distribution conditionnelle de , et non la distribution marginale de . Je me concentre sur la distribution conditionnelle parce que je pense que c'est ce que vous demandez vraiment. $Y|\{X, \beta, \sigma^2\} \sim \mathcal N(X\beta, \sigma^2 I_n)$ $\varepsilon$ $Y$ $Y$

Je pense que la partie qui prête à confusion est que cela ne signifie pas qu'un histogramme de aura l'air normal. Nous disons que le vecteur entier est un seul tirage d'une distribution normale multivariée où chaque élément a une moyenne potentiellement différente . Ce n'est pas la même chose que d'être un échantillon normal iid. Les erreurs sont en fait un échantillon iid donc un histogramme de celles-ci semblerait normal (et c'est pourquoi nous faisons un tracé QQ des résidus, pas la réponse). $Y$ $Y$ $E(Y_i|X_i) = X_i^T\beta$ $\varepsilon$

$H$ $H_i = \beta_0 + \beta_1I(\text{12th grader}) + \varepsilon_i$ $\varepsilon_i \sim \ \text{iid} \ \mathcal N(0, \sigma^2)$ $H_i$

— jld
source

σ^{2} I_{n}

$\sigma^2 I_n$

n \times n

$n \times n$

σ^{2}

$\sigma^2$

n \times n

$n\times n$

11

Par conséquent, si nous supposons que le terme d'erreur est normalement distribué, cela n'implique-t-il pas que la réponse est également normalement distribuée?

Pas même à distance. La façon dont je m'en souviens est que les résidus sont normaux en fonction de la partie déterministe du modèle . Voici une démonstration de ce à quoi cela ressemble dans la pratique.

Je commence par générer aléatoirement des données. Ensuite, je définis un résultat qui est une fonction linéaire des prédicteurs et j'évalue un modèle.

N <- 100

x1 <- rbeta(N, shape1=2, shape2=10)
x2 <- rbeta(N, shape1=10, shape2=2)

x <- c(x1,x2)
plot(density(x, from=0, to=1))

y <- 1+10*x+rnorm(2*N, sd=1)

model<-lm(y~x)

Voyons à quoi ressemblent ces résidus. Je soupçonne qu'ils devraient être distribués normalement, car le résultat y yavait ajouté un bruit normal. Et c'est bien le cas.

plot(density(model$residuals), main="Model residuals", lwd=2)
s <- seq(-5,20, len=1000)
lines(s, dnorm(s), col="red")

plot(density(y), main="KDE of y", lwd=2)
lines(s, dnorm(s, mean=mean(y), sd=sd(y)), col="red")

En vérifiant la distribution de y, cependant, nous pouvons voir que ce n'est certainement pas normal! J'ai superposé la fonction de densité avec la même moyenne et la même variance que y, mais c'est évidemment un ajustement terrible!

La raison pour laquelle cela s'est produit dans ce cas est que les données d'entrée ne sont même pas à distance normales. Rien dans ce modèle de régression ne requiert de normalité, sauf dans les résidus - pas dans la variable indépendante, ni dans la variable dépendante.

— Sycorax dit de réintégrer Monica
source

8

Non, non. Par exemple, supposons que nous ayons un modèle prédisant le poids des athlètes olympiques. Bien que le poids puisse être normalement réparti entre les athlètes de chaque sport, il ne le sera pas entre tous les athlètes - il pourrait même ne pas être unimodal.

— Peter Flom - Réintégrer Monica
source