Non, les résidus étudiés et les résidus normalisés sont des concepts différents (mais liés).
En fait, R fournit des fonctions intégrées rstandard()
et rstudent()
dans le cadre des mesures d' influence . Le même package intégré fournit de nombreuses fonctions similaires pour l'effet de levier, la distance du cuisinier, etc. rstudent()
est essentiellement la même que celle MASS::studres()
que vous pouvez vérifier par vous-même:
> all.equal(MASS::studres(model), rstudent(model))
[1] TRUE
Les résidus standardisés sont un moyen d'estimer l'erreur pour un point de données particulier qui prend en compte l'effet de levier / l'influence du point. Celles-ci sont parfois appelées «résidus étudiés en interne».
ri=eis(ei)=eiMSE(1−hii)−−−−−−−−−−−√
ϵi∼N(0,σ2)ei
Les résidus étudiés pour tout point de données donné sont calculés à partir d'un modèle ajusté à tous les autres points de données, sauf celui en question. Celles-ci sont appelées de diverses manières les «résidus étudiés à l'extérieur», les «résidus supprimés» ou les «résidus réticulés».
riti
ti=ri(n−k−2n−k−1−r2i)1/2,
La motivation derrière les résidus étudiés vient de leur utilisation dans les tests aberrants. Si nous soupçonnons qu'un point est une valeur aberrante, alors il n'a pas été généré à partir du modèle supposé, par définition. Par conséquent, ce serait une erreur - une violation des hypothèses - d'inclure cette valeur aberrante dans l'ajustement du modèle. Les résidus étudiés sont largement utilisés dans la détection pratique des valeurs aberrantes.
Les résidus étudiés ont également la propriété souhaitable que, pour chaque point de données, la distribution de la distribution t de Student résiduelle soit établie, en supposant que les hypothèses de normalité du modèle de régression d'origine ont été respectées. (Les résidus normalisés n'ont pas une distribution aussi agréable.)
Enfin, pour répondre à toute préoccupation que la bibliothèque R puisse suivre une nomenclature différente de celle ci-dessus, la documentation R indique explicitement qu'elle utilise "standardisée" et "étudiée" dans le même sens que celui décrit ci-dessus.
Fonctions rstandard
et rstudent
donnent les résidus standardisés et Studentized respectivement. (Ceux-ci renormalisent les résidus pour avoir une variance unitaire, en utilisant respectivement une mesure globale et une mesure de la variance d'erreur.)
R
terminologie est l'opposé de Montgomery, Peck et Vining (un manuel de régression populaire qui existe depuis 35 ans). Alors méfiez-vous et assurez-vous d'étudier laR
documentation et, si nécessaire, son code source plutôt que de vous fier à ce que vous pensez que la terminologie signifie.