La reponse courte est oui.
Tout d'abord (comme le souligne Ruben van Bergen), la distribution de (ou , d'ailleurs) n'est pas pertinente. Si vous deviez faire une supposition distributionnelle, ce serait sur votre résidus , c'est donc ce que vous devriez vérifier.yXε
Mais plus important encore, vous n'avez pas du tout besoin de l'hypothèse de normalité pour que votre estimation fonctionne. Vous utilisez la lm
fonction de R , qui estime votre modèle à l'aide des moindres carrés ordinaires (OLS) . Cette méthode vous donnera une estimation correcte de l'espérance de conditionnelle à tant que:YX
- E[ε|X]=0 (aucun facteur externe n'affecte à la fois votre résultat et vos variables explicatives).
- Var(ε)<∞ (vos résidus ont une variance finie).
Si vous faites en outre l'hypothèse que vos résidus ne sont pas corrélés et qu'ils ont tous la même variance, alors le théorème de Gauss-Markov s'applique et l'OLS est le meilleur estimateur linéaire sans biais (BLEU).
Si vos résidus sont corrélés ou ont des variances différentes, l'OLS fonctionne toujours mais il peut être moins précis, ce qui doit se refléter dans la façon dont vous déclarez les intervalles de confiance de vos estimations (en utilisant, par exemple, des erreurs-types robustes ).
Si vous supposez également que vos résidus sont normalement distribués, l'OLS devient asymptotiquement efficace car il équivaut à la probabilité maximale.
Ainsi, la régression peut mieux fonctionner si vos données sont normalement distribuées, mais elle fonctionnera toujours si elles ne le sont pas.