Hypothèses de régression multiple: en quoi l'hypothèse de normalité est-elle différente de l'hypothèse de variance constante?


20

J'ai lu que ce sont les conditions d'utilisation du modèle de régression multiple:

  1. les résidus du modèle sont presque normaux,
  2. la variabilité des résidus est presque constante
  3. les résidus sont indépendants, et
  4. chaque variable est liée linéairement au résultat.

En quoi 1 et 2 sont-ils différents?

Vous pouvez en voir un ici juste:

entrez la description de l'image ici

Ainsi, le graphique ci-dessus indique que le résidu qui est à 2 écart-type est à 10 de Y-hat. Cela signifie que les résidus suivent une distribution normale. Vous ne pouvez pas en déduire 2? Que la variabilité des résidus est presque constante?


7
Je dirais que leur ordre est erroné. Par ordre d'importance, je dirais 4, 3, 2, 1. De cette façon, chaque hypothèse supplémentaire permet au modèle d'être utilisé pour résoudre un ensemble plus large de problèmes, par opposition à l'ordre dans votre question, où l'hypothèse la plus restrictive est le premier.
Matthew Drury

2
Ces hypothèses sont requises pour les statistiques inférentielles. Aucune hypothèse n'est faite pour minimiser la somme des erreurs quadratiques.
David Lane

1
Je pense que je voulais dire 1, 3, 2, 4. 1 doit être respecté au moins approximativement pour que le modèle soit utile pour beaucoup, 3 est nécessaire pour que le modèle soit cohérent, c'est-à-dire converge vers quelque chose de stable à mesure que vous obtenez plus de données , 2 est nécessaire pour que l'estimation soit efficace, c'est-à-dire qu'il n'y a pas d'autre meilleur moyen d'utiliser les données pour estimer la même droite, et 4 est nécessaire, au moins approximativement, pour effectuer des tests d'hypothèse sur les paramètres estimés.
Matthew Drury


2
Veuillez donner une source pour votre diagramme s'il ne s'agit pas de votre propre travail.
Nick Cox

Réponses:


44

1. Distribution normale des résidus :

La condition de normalité entre en jeu lorsque vous essayez d'obtenir des intervalles de confiance et / ou des valeurs de p.

ε|XN(0,σ2In) n'est pas une condition de Gauss Markov .


entrez la description de l'image ici

Ce graphique tente d'illustrer la distribution des points de la population en bleu (avec la ligne de régression de la population sous forme de ligne cyan solide), superposée à un ensemble de données échantillon en gros points jaunes (avec sa ligne de régression estimée tracée en ligne jaune en pointillés). Évidemment, cela ne concerne que la consommation conceptuelle, car il y aurait des points d'infini pour chaque valeur de ) - il s'agit donc d'une discrétisation iconographique graphique du concept de régression comme la distribution continue des valeurs autour d'une moyenne (correspond à la valeur prédite de la variable "indépendante") à chaque valeur donnée du régresseur, ou variable explicative.X=x

Si nous exécutons des tracés de diagnostic R sur les données de "population" simulées, nous obtiendrions ...

entrez la description de l'image ici

La variance des résidus est constante le long de toutes les valeurs deX.

L'intrigue typique serait:

entrez la description de l'image ici


Conceptuellement, l'introduction de plusieurs régresseurs ou variables explicatives ne modifie pas l'idée. Je trouve le didacticiel pratique du package swirl()extrêmement utile pour comprendre comment la régression multiple est vraiment un processus de régression des variables dépendantes les unes contre les autres, entraînant la variation résiduelle et inexpliquée du modèle; ou plus simplement, une forme vectorielle de régression linéaire simple :

La technique générale consiste à choisir un régresseur et à remplacer toutes les autres variables par les résidus de leurs régressions contre celui-ci.


2. La variabilité des résidus est presque constante (homoskédasticité) :

E[εi2|X]=σ2

Le problème avec la violation de cette condition est:

L'hétéroscédasticité a de graves conséquences pour l'estimateur OLS. Bien que l'estimateur OLS reste sans biais, le SE estimé est erroné. Pour cette raison, les intervalles de confiance et les tests d'hypothèses ne peuvent pas être utilisés. De plus, l'estimateur OLS n'est plus BLEU.


entrez la description de l'image ici

Dans ce graphique, la variance augmente avec les valeurs du régresseur (variable explicative), par opposition à rester constante. Dans ce cas, les résidus sont normalement distribués, mais la variance de cette distribution normale change (augmente) avec la variable explicative.

Notez que la "vraie" ligne de régression (population) ne change pas par rapport à la ligne de régression de la population sous homoskédasticité dans le premier graphique (bleu foncé continu), mais il est intuitivement clair que les estimations vont être plus incertaines.

Les tracés de diagnostic sur l'ensemble de données sont ...

entrez la description de l'image ici

ce qui correspond à une distribution "à queue lourde" , ce qui est logique, c'est que nous devions télescoper toutes les parcelles gaussiennes verticales "côte à côte" en une seule, qui conserverait sa forme de cloche, mais aurait de très longues queues.


@Glen_b "... une couverture complète de la distinction entre les deux considérerait également homoskedastic-but-not-normal."

entrez la description de l'image ici

Les résidus sont fortement asymétriques et la variance augmente avec les valeurs de la variable explicative.

Ce seraient les parcelles de diagnostic ...

entrez la description de l'image ici

correspondant à l'inclinaison droite marquée.

Pour fermer la boucle, nous verrions également une asymétrie dans un modèle homoscédastique avec une distribution non gaussienne des erreurs:

entrez la description de l'image ici

avec des tracés de diagnostic comme ...

entrez la description de l'image ici


2
Merci beaucoup. J'ai pensé qu'il était nécessaire de jeter un pont sur la discrétisation brute de la population utilisée comme outil de visualisation. Je peux poster le code, mais j'hésite car il y avait un certain degré de mathématiques créatives :-)
Antoni Parellada

3
L'illustration de la distinction entre les erreurs normales et les erreurs homoscédastiques en montrant un tracé satisfaisant à la fois et en montrant ensuite une normale mais pas une homoscédastique est excellente. Je suppose qu'une couverture complète de la distinction entre les deux considérerait également l'homoscédastique, mais pas la normale. [Je ne vous suggère pas d'ajouter une telle illustration, mais c'est un troisième bras utile pour les gens à garder à l'esprit lors de l'examen des hypothèses.]
Glen_b -Reinstate Monica

7

Ce n'est pas la faute de l'OP, mais je commence à me lasser de la désinformation de lecture comme celle-ci.

J'ai lu que ce sont les conditions d'utilisation du modèle de régression multiple:

the residuals of the model are nearly normal,
the variability of the residuals is nearly constant
the residuals are independent, and
each variable is linearly related to the outcome.

Le «modèle de régression multiple» n'est qu'un libellé déclarant qu'une variable peut être exprimée en fonction d'autres variables.

Ni le vrai terme d'erreur ni les résidus du modèle n'ont besoin de presque rien en particulier - si les résidus semblent normaux, cela est bon pour l'inférence statistique ultérieure .

La variabilité (variance) du terme d'erreur n'a pas besoin d'être presque constante - si ce n'est pas le cas, nous avons un modèle à hétéroscédasticité qui est de nos jours assez facilement manipulé.

Les résidus ne sont en aucun cas indépendants, car chacun est fonction de l'ensemble de l'échantillon. Les vrais termes d'erreur n'ont pas besoin d'être indépendants - s'ils ne le sont pas, nous avons un modèle avec autocorrélation, qui, bien que plus difficile que l'hétéroskédasticité, peut être traité jusqu'à un certain degré.

Il n'est pas nécessaire que chaque variable soit liée linéairement au résultat. En fait, la distinction entre régression "linéaire" et "non linéaire" n'a rien à voir avec la relation entre les variables - mais comment les coefficients inconnus entrent dans la relation.

Ce que l'on pourrait dire, c'est que si les trois premiers sont valides et que le quatrième est correctement énoncé, nous obtenons alors le "modèle de régression linéaire normale classique", qui n'est qu'une (bien qu'historiquement la première) variante des modèles de régression multiple.


3
Précision mineure qui peut aider certains lecteurs: avec le modèle de régression linéaire, le prédicteur linéaire, (et donc l'attente de la réponse) est nécessairement aussi linéaire dans les colonnes de qu'il l'est dans . Ce qui manque souvent aux traitements plus élémentaires, c'est que les colonnes de ne sont pas nécessairement linéaires dans la collection originale de variables indépendantes de l'ensemble de données. X β XXβXβX
Glen_b -Reinstate Monica

2
Et la question manque l'hypothèse absolument fondamentale que l'espérance conditionnelle des termes d'erreur est nulle!
Matthew Gunn

1
@MatthewGunn Eh bien, cela ouvre une très large discussion sur ce que nous faisons avec ce modèle: si nous adoptons la vue "déterministe / ingénierie", nous avons besoin de cette hypothèse pour nous assurer que la spécificité est bien la déterministe sous-jacente. Si nous voulons estimer la fonction d'espérance conditionnelle par rapport aux régresseurs spécifiques , alors la codnition est automatiquement satisfaite (ou du moins sa forme la plus faible, l'orthogonalité).
Alecos Papadopoulos

1
@AlecosPapadopoulos Oui, dans un sens, les moindres carrés ordinaires vous donnent toujours une estimation de quelque chose! Mais ce n'est peut-être pas quelque chose que vous voulez. Si l'OP veut simplement une fonction d'attente conditionnelle linéaire par rapport aux régresseurs spécifiques, je conviens que la condition est automatiquement supposée. Mais si l'OP essaie d'estimer un paramètre, justifier la condition d'orthogonalité est critique!
Matthew Gunn

@MatthewGunn En effet, c'est certainement le cas.
Alecos Papadopoulos

3

Antoni Parellada a eu une réponse parfaite avec une belle illustration graphique.

Je veux juste ajouter un commentaire pour résumer la différence entre deux déclarations

  1. les résidus du modèle sont presque normaux

  2. la variabilité des résidus est presque constante

  • L'énoncé 1 indique que la "forme" du résidu est une "courbe en forme de cloche" .
  • L'énoncé 2 affine la propagation de la "forme" (est constante), dans le tracé d'Antoni Parellada 3. il y a 3 courbes en forme de cloche, mais elles sont différentes.

1

Il n'y a pas un seul ensemble unique d'hypothèses de régression, mais il existe plusieurs variantes. Certains de ces ensembles d'hypothèses sont plus stricts, c'est-à-dire plus étroits, que d'autres. De plus, dans la plupart des cas, vous n'en avez pas besoin et, dans de nombreux cas, vous ne pouvez pas vraiment supposer que la distribution est normale.

Les hypothèses que vous avez citées sont plus strictes que la plupart, mais elles sont formulées dans un langage inutilement vague. Par exemple, qu'est-ce qui est exactement près ? De plus, ce ne sont pas les résidus sur lesquels nous imposons les hypothèses, ce sont les erreurs . Les résidus sont des estimations d'erreurs qui ne sont pas observables. Cela me dit que vous citez d'une mauvaise source. Jetez-le.

La réponse brève à votre question est que si vous considérez une distribution, par exemple la distribution de Student t, pour vos erreurs (je vais utiliser le terme correct dans ma réponse), alors vous pouvez voir comment les erreurs peuvent avoir une variation "presque constante" sans être de la distribution normale, et comment avoir une variance "presque constante" ne nécessite pas une distribution normale. En d'autres termes, non, vous ne pouvez pas concevoir une hypothèse à partir d'une autre sans exigence supplémentaire.

yi=Xiβ+εiεiN(0,σ2)
  1. N(.)
  2. σεi
  3. NX
  4. y=Xβ

Ainsi, lorsque nous regroupons toutes les hypothèses de cette façon dans une ou deux équations, il peut sembler qu'elles dépendent toutes l'une de l'autre, ce qui n'est pas vrai. Je vais le démontrer ensuite.

Exemple 1

yi=Xiβ+εiεitν
ν

Exemple 2

yi=Xiβ+εiεiN(0,σ2i)
i

1

J'ai essayé d'ajouter une nouvelle dimension à la discussion et de la rendre plus générale. Veuillez m'excuser si c'était trop rudimentaire.

Un modèle de régression est un moyen formel d'exprimer les deux ingrédients essentiels d'une relation statistique:

  1. YX
  2. Une dispersion de points autour de la courbe de relation statistique.

Y

En postulant que:

  1. YX

  2. X

Y

YX

YXYX

Source: Modèles statistiques linéaires appliqués, KNNL

YX

Yi=β0 +β1Xi+ϵ

YiXi

β0β1 sont des paramètres

ϵN(O,σ2)

i

E(Y|X)β0β1σ2β0β1σ2

the residuals of the model are nearly normal,
the variability of the residuals is nearly constant
the residuals are independent, and
each variable is linearly related to the outcome.

En quoi 1 et 2 sont-ils différents?

Venir à la question

Les première et deuxième hypothèses que vous avez énoncées sont deux parties de la même hypothèse de normalité avec une moyenne nulle et une variance constante. Je pense que la question devrait être posée comme quelles sont les implications des deux hypothèses pour un modèle de régression d'erreur normal plutôt que la différence entre les deux hypothèses. Je dis cela parce que cela ressemble à comparer des pommes à des oranges parce que vous essayez de trouver une différence entre les hypothèses sur la distribution d'une dispersion de points et les hypothèses sur sa variabilité. La variabilité est une propriété d'une distribution. Je vais donc essayer de répondre à une question plus pertinente des implications des deux hypothèses.

Dans l'hypothèse de normalité, les estimateurs du maximum de vraisemblance (MLE) sont les mêmes que les estimateurs des moindres carrés et les MLE ont la propriété d'être UMVUE, ce qui signifie qu'ils ont une variance minimale entre tous les estimateurs.

β0β1t


1
C'est un excellent compte rendu de régression. Mais comment répond-il à la question particulière de ce fil?
whuber
En utilisant notre site, vous reconnaissez avoir lu et compris notre politique liée aux cookies et notre politique de confidentialité.
Licensed under cc by-sa 3.0 with attribution required.