Comment la régression linéaire utilise-t-elle la distribution normale?


26

Dans la régression linéaire, chaque valeur prédite est supposée avoir été choisie dans une distribution normale de valeurs possibles. Voir ci-dessous.

Mais pourquoi chaque valeur prédite est-elle supposée provenir d'une distribution normale? Comment la régression linéaire utilise-t-elle cette hypothèse? Que faire si les valeurs possibles ne sont pas normalement distribuées?

entrez la description de l'image ici


2
Seules les erreurs suivent une distribution normale (ce qui implique que la probabilité conditionnelle de Y étant donné que X est également normale). Ceci est probablement traditionnel pour des raisons liées au théorème de la limite centrale. Mais vous pouvez remplacer la normale par n'importe quelle distribution de probabilité symétrique et obtenir les mêmes estimations de coefficients via les moindres carrés. Ce qui diffère cependant serait l'erreur-type résiduelle, la qualité de l'ajustement et la façon dont vous validez les hypothèses.
Kian le

4
Les hypothèses normales entrent principalement dans l'inférence - tests d'hypothèses, IC, IP. Si vous faites des hypothèses différentes, celles-ci seront différentes, au moins dans de petits échantillons.
Glen_b -Reinstate Monica

7
Par ailleurs, pour une régression linéaire ordinaire, votre diagramme doit dessiner les courbes normales verticalement, pas en diagonale.
Glen_b -Reinstate Monica

Réponses:


29

La régression linéaire en elle-même n'a pas besoin de l'hypothèse normale (gaussienne), les estimateurs peuvent être calculés (par les moindres carrés linéaires) sans avoir besoin d'une telle hypothèse, et est parfaitement logique sans elle.

Mais ensuite, en tant que statisticiens, nous voulons comprendre certaines des propriétés de cette méthode, des réponses à des questions telles que: les estimateurs des moindres carrés sont-ils optimaux dans un certain sens? ou pouvons-nous faire mieux avec certains estimateurs alternatifs? Ensuite, sous la distribution normale des termes d'erreur, nous pouvons montrer que ces estimateurs sont, en effet, optimaux, par exemple ils sont "sans biais de variance minimale", ou de probabilité maximale. Rien de tel ne peut être prouvé sans l'hypothèse normale.

De plus, si nous voulons construire (et analyser les propriétés des) intervalles de confiance ou des tests d'hypothèse, nous utilisons l'hypothèse normale. Mais, nous pourrions plutôt construire des intervalles de confiance par d'autres moyens, comme le bootstrap. Ensuite, nous n'utilisons pas l'hypothèse normale, mais, hélas, sans cela, il se pourrait que nous devrions utiliser d'autres estimateurs que les moindres carrés, peut-être des estimateurs robustes?

Dans la pratique, bien sûr, la distribution normale est tout au plus une fiction commode. Donc, la question vraiment importante est, à quel point devons-nous être proches de la normalité pour prétendre utiliser les résultats mentionnés ci-dessus? C'est une question beaucoup plus délicate! Les résultats d'optimalité ne sont pas robustes , donc même un très petit écart par rapport à la normalité pourrait détruire l'optimalité. C'est un argument en faveur de méthodes robustes. Pour une autre approche de cette question, voir ma réponse à Pourquoi devrions-nous utiliser des erreurs t au lieu d'erreurs normales?

Une autre question pertinente est la suivante: pourquoi la normalité des résidus est-elle «à peine importante du tout» aux fins de l'estimation de la droite de régression?

 EDIT

Cette réponse a conduit à une grande discussion dans les commentaires, ce qui a conduit à nouveau à ma nouvelle question: régression linéaire: toute distribution non normale donnant l'identité de l'OLS et du MLE? qui a finalement obtenu (trois) réponses, donnant des exemples où des distributions non normales conduisent à des estimateurs des moindres carrés.


L'erreur des moindres carrés équivaut à une hypothèse normale.
Neil G

4
Il n'y a pas une telle contradiction. Par exemple, le théorème de Gauss-Markov dit que les moindres carrés linéaires sont optimaux (au moindre sens de la variance) parmi tous les estimateurs linéaires, sans avoir besoin d'hypothèses de distribution (en dehors de la variance existante). Les moindres carrés sont une procédure numérique qui peut être définie indépendamment de tout modèle probabiliste! Le modèle probabiliste est ensuite utilisé pour analyser cette procédure d'un point de vue statistique.
kjetil b halvorsen

2
@NeilG Certes, MLE pour la normale est le moins de carrés mais cela n'implique pas que les moindres carrés doivent impliquer une hypothèse de normalité. D'un autre côté, de grands écarts par rapport à la normalité peuvent faire des moindres carrés un mauvais choix (lorsque tous les estimateurs linéaires sont mauvais).
Glen_b -Reinstate Monica

1
@NeilG Ce que j'ai dit là-bas n'implique nullement l'équivalence du LS et de la normalité, mais vous dites explicitement qu'ils sont équivalents, donc je ne pense vraiment pas que nos deux déclarations soient même proches de la tautologie.
Glen_b -Reinstate Monica

1
@Neil Pouvez-vous montrer comment votre déclaration implique réellement ce que j'ai dit? Je ne le vois vraiment pas.
Glen_b -Reinstate Monica

3

Cette discussion Et si les résidus sont normalement distribués, mais y ne l'est pas? a bien répondu à cette question.

En bref, pour un problème de régression, nous supposons seulement que la réponse est normale conditionnée à la valeur de x. Il n'est pas nécessaire que les variables indépendantes ou de réponse soient indépendantes.


1
  1. Mais pourquoi chaque valeur prédite est-elle supposée provenir d'une distribution normale?

Il n'y a pas de raison profonde à cela, et vous êtes libre de modifier les hypothèses de distribution, de passer aux GLM ou à une régression robuste. Le LM (distribution normale) est populaire car il est facile à calculer, assez stable et les résidus sont en pratique souvent plus ou moins normaux.

  1. Comment la régression linéaire utilise-t-elle cette hypothèse?

Comme toute régression, le modèle linéaire (= régression avec erreur normale) recherche les paramètres qui optimisent la probabilité pour l'hypothèse de distribution donnée. Voir ici pour un exemple de calcul explicite de la probabilité d'un modèle linéaire. Si vous prenez la probabilité logarithmique d'un modèle linéaire, elle se révèle être proportionnelle à la somme des carrés, et l'optimisation de celle-ci peut être calculée assez facilement.

  1. Que faire si les valeurs possibles ne sont pas normalement distribuées?

Si vous souhaitez adapter un modèle avec différentes distributions, les prochaines étapes du manuel seraient des modèles linéaires généralisés (GLM), qui offrent des distributions différentes, ou des modèles linéaires généraux, qui sont toujours normaux, mais assouplissent l'indépendance. De nombreuses autres options sont possibles. Si vous souhaitez simplement réduire l'effet des valeurs aberrantes, vous pouvez par exemple envisager une régression robuste.


0

Après avoir revu la question, je pense qu'il n'y a aucune raison d'utiliser la distribution normale à moins que vous ne vouliez effectuer une sorte d'inférence sur le paramètre de régression. Et vous pouvez appliquer une régression linéaire et ignorer la distribution du terme de bruit.


2
Ça n'a pas beaucoup de sens pour moi.
SmallChess

0

(xi,yi)y=βx+cβi(yiiβxic)2ηi=yi(βxi+c)βββββ

En utilisant notre site, vous reconnaissez avoir lu et compris notre politique liée aux cookies et notre politique de confidentialité.
Licensed under cc by-sa 3.0 with attribution required.