Pourquoi les diagnostics sont-ils basés sur les résidus?

Dans une régression linéaire simple, on veut souvent vérifier si certaines hypothèses sont remplies pour pouvoir faire l'inférence (par exemple, les résidus sont normalement distribués).

Est-il raisonnable de vérifier les hypothèses en vérifiant si les valeurs ajustées sont normalement distribuées?

regression residuals diagnostic

— bdeonovic
source

Pourquoi les diagnostics sont-ils basés sur les résidus?

Parce que de nombreuses hypothèses se rapportent à la distribution conditionnelle de , pas à sa distribution inconditionnelle. Cela équivaut à une hypothèse sur les erreurs, que nous estimons par les résidus. $Y$

Dans une régression linéaire simple, on veut souvent vérifier si certaines hypothèses sont remplies pour pouvoir faire l'inférence (par exemple, les résidus sont normalement distribués).

L'hypothèse réelle de normalité ne concerne pas les résidus mais le terme d'erreur. Le plus proche de ceux que vous avez sont les résidus, c'est pourquoi nous les vérifions.

Est-il raisonnable de vérifier vérifier les hypothèses en vérifiant si les valeurs ajustées sont normalement distribuées?

Non. La distribution des valeurs ajustées dépend de la configuration des . Cela ne vous dit pas grand-chose sur les hypothèses. $x$

Par exemple, je viens de lancer une régression sur des données simulées, pour lesquelles toutes les hypothèses ont été correctement spécifiées. Par exemple, la normalité des erreurs a été satisfaite. Voici ce qui se passe lorsque nous essayons de vérifier la normalité des valeurs ajustées:

diagnostics de normalité sur les appareils

Ils sont clairement anormaux; en fait, ils ont l'air bimodaux. Pourquoi? Eh bien, parce que la distribution des valeurs ajustées dépend du modèle des . Les erreurs étaient normales, mais les valeurs ajustées pouvaient être presque n'importe quoi. $x$

Une autre chose que les gens vérifient souvent (beaucoup plus souvent, en fait) est la normalité des s ... mais inconditionnellement sur ; encore une fois, cela dépend du modèle de s, et ne vous dit donc pas grand-chose sur les hypothèses réelles. Encore une fois, j'ai généré des données où toutes les hypothèses sont valables; voici ce qui se passe lorsque nous essayons de vérifier la normalité des valeurs inconditionnelles : $y$ $x$ $x$ $y$

diagnostics de normalité sur les valeurs y brutes

Encore une fois, la non-normalité que nous voyons ici (les y sont asymétriques) n'est pas liée à la normalité conditionnelle des s. $y$

En fait, j'ai un manuel à côté de moi en ce moment qui discute de cette distinction (entre la distribution conditionnelle et la distribution inconditionnelle de ) - c'est-à-dire, il explique dans un premier chapitre pourquoi simplement regarder la distribution des n'est pas droit puis dans les chapitres suivants à plusieurs reprises de contrôle la hypothèse de normalité en regardant la distribution des valeurs sans tenir compte de l'impact des « s pour évaluer la pertinence des hypothèses ( une autre chose , il le fait habituellement est de simplement regarder histogrammes pour faire cette évaluation, mais c'est un tout autre problème ). $Y$ $y$ $-$ $y$ $-$ $x$ $-$

Quelles sont les hypothèses, comment les vérifions-nous et quand devons-nous les formuler?

Les peuvent être traités comme fixes (observés sans erreur). Nous n'essayons généralement pas de vérifier cela de manière diagnostique (mais nous devrions avoir une bonne idée si c'est vrai). $x$
La relation entre et le dans le modèle est correctement spécifiée (par exemple, linéaire). Si nous soustrayons le modèle linéaire le mieux ajusté, il ne devrait plus y avoir de motif dans la relation entre la moyenne des résidus et . $E(Y)$ $x$ $x$
Variance constante (c.-à-d., ne dépend pas de . La propagation des erreurs est constante; elle peut être vérifiée en regardant la répartition des résidus par rapport à , ou en vérifiant une fonction des résidus au carré par rapport à et vérifier les changements dans la moyenne (par exemple, des fonctions telles que le journal ou la racine carrée. R utilise la quatrième racine des résidus au carré). $\text{Var}(Y|x)$ $x$ $x$ $x$
Indépendance conditionnelle / indépendance des erreurs. Des formes particulières de dépendance peuvent être vérifiées (par exemple, la corrélation en série). Si vous ne pouvez pas anticiper la forme de dépendance, c'est un peu difficile à vérifier.
Normalité la distribution conditionnelle de / normalité des erreurs. Peut être vérifié, par exemple, en faisant un tracé QQ des résidus. $Y$

(Il y a en fait d'autres hypothèses que je n'ai pas mentionnées, telles que les erreurs additives, que les erreurs ont une moyenne nulle, etc.)

Si vous souhaitez uniquement estimer l'ajustement de la droite des moindres carrés et non pas dire des erreurs standard, vous n'avez pas besoin de faire la plupart de ces hypothèses. Par exemple, la distribution des erreurs affecte l'inférence (tests et intervalles), et elle peut affecter l'efficacité de l'estimation, mais la ligne LS est toujours mieux sans biais linéaire par exemple; donc à moins que la distribution ne soit si mal anormale que tous les estimateurs linéaires soient mauvais, ce n'est pas nécessairement un gros problème si les hypothèses sur le terme d'erreur ne se vérifient pas.

— Glen_b -Reinstate Monica
source

J'ai ajouté quelques diagrammes à ma réponse.

— Glen_b -Reinstate Monica

C'est une excellente réponse. Si vous voulez plus, je couvre un territoire quelque peu similaire ici: que se passe-t-il si les résidus sont normalement distribués mais Y ne l'est pas?

— gung - Rétablir Monica

@gung Je me donne un coup de pied pour ne pas y avoir lié en premier.

— Glen_b -Reinstate Monica

@Glen: Très bonne disposition. J'ai eu la même confusion pendant longtemps grâce au traitement pas si bon du sujet dans les manuels et presque dans beaucoup de ressources sur Internet. D'un autre côté, la distribution inconditionnelle de Y est presque toujours examinée pour déduire un modèle pour la distribution conditionnelle, en particulier dans le contexte des séries chronologiques. Y a-t-il un raisonnement théorique derrière cela? J'ai essayé de le poser comme une question mais je pense que je n'ai pas pu le formuler correctement: stats.stackexchange.com/questions/74886/…

— Cagdas Ozgenc

@CagdasOzgenc La seule raison pour laquelle je peux y penser est parce que c'est facile à faire avant d'avoir un modèle. La réponse que vous avez à cette question liée me semblait être une bonne réponse lorsqu'elle a été publiée.

— Glen_b -Reinstate Monica