R: tester la normalité des résidus du modèle linéaire - quels résidus utiliser


13

Je voudrais faire un test W de Shapiro Wilk et un test de Kolmogorov-Smirnov sur les résidus d'un modèle linéaire pour vérifier la normalité. Je me demandais simplement quels résidus utiliser pour cela - les résidus bruts, les résidus Pearson, les résidus studentisés ou les résidus standardisés? Pour un test W de Shapiro-Wilk, il apparaît que les résultats pour les résidus bruts et Pearson sont identiques mais pas pour les autres.

fit=lm(mpg ~ 1 + hp + wt, data=mtcars)
res1=residuals(fit,type="response")
res2=residuals(fit,type="pearson")
res3=rstudent(fit)
res4=rstandard(fit)
shapiro.test(res1) # W = 0.9279, p-value = 0.03427
shapiro.test(res2) # W = 0.9279, p-value = 0.03427
shapiro.test(res3) # W = 0.9058, p-value = 0.008722
shapiro.test(res4) # W = 0.9205, p-value = 0.02143

Même question pour KS, et aussi si les résidus doivent être testés contre une distribution normale (pnorm) comme dans

ks.test(res1, "pnorm") # D = 0.296, p-value = 0.005563

ou une distribution t-étudiant avec nk-2 degrés de liberté, comme dans

ks.test(res3, "pt",df=nrow(mtcars)-2-2) 

Un conseil peut-être? De plus, quelles sont les valeurs recommandées pour les statistiques de test W (> 0,9?) Et D afin que la distribution soit suffisamment proche de la normalité et n'affecte pas trop votre inférence?

Enfin, le fait de prendre en compte l' approche de l'incertitude dans les coefficients de lm intégrés ou fonctionnerait cumres()dans le paquet gof()mieux à cet égard?

cheers, Tom


9
Il est rare qu'un tel test ait un quelconque intérêt. Demandez-vous quelles actions spécifiques vous prendriez si les résidus se révélaient «significativement» non normaux. L'expérience vous apprend que cela dépend de la façon dont, et dans quelle mesure, ils diffèrent de la normalité. Aucun de ceux-ci n'est mesuré directement (ou adéquatement) par SW, KS ou tout autre test de distribution formel. Pour ce travail, vous souhaitez utiliser des graphiques exploratoires, pas des tests formels. La question de savoir quels résidus pourraient convenir pour tracer est toujours en suspens, mais les autres questions tombent au bord de la route comme étant non pertinentes.
whuber

Oui, j'ai remarqué que de nombreux statisticiens défendent cette position. Mais je voudrais quand même vérifier les statistiques de test de ces tests (par exemple vérifier si la valeur de Shapiro Wilks W est supérieure à 0,9). Et je pourrais toujours faire une transformation Box-Cox ou quelque chose comme ça pour améliorer la normalité en cas d'écarts importants. De plus, ma question était également en partie conceptuelle - c'est-à-dire quelle serait la façon la plus correcte de le faire, même si la normalité n'est pas toujours aussi importante dans la pratique ...
Tom Wenseleers

Réponses:


9

Grew trop longtemps pour un commentaire.

  1. Pour un modèle de régression ordinaire (tel que serait ajusté par lm), il n'y a pas de distinction entre les deux premiers types résiduels que vous considérez; type="pearson"est pertinent pour les GLM non gaussiens, mais est le même que responsepour les modèles gaussiens.

  2. Les observations auxquelles vous appliquez vos tests (une certaine forme de résidus) ne sont pas indépendantes, donc les statistiques habituelles n'ont pas la distribution correcte. De plus, à strictement parler, aucun des résidus que vous considérez ne sera exactement normal, car vos données ne seront jamais exactement normales. [Les tests formels répondent à la mauvaise question - une question plus pertinente serait «dans quelle mesure cette non-normalité aura-t-elle un impact sur ma déduction?», Une question à laquelle la bonté habituelle des tests d'hypothèse d'ajustement ne répond pas.]

  3. Même si vos données devaient être exactement normales, ni le troisième ni le quatrième type de résidu ne seraient exactement normaux. Néanmoins, il est beaucoup plus courant que les gens les examinent (disons par les parcelles QQ) que les résidus bruts.

  4. X

En utilisant notre site, vous reconnaissez avoir lu et compris notre politique liée aux cookies et notre politique de confidentialité.
Licensed under cc by-sa 3.0 with attribution required.