Résidus bruts par rapport aux résidus standardisés par rapport aux résidus studentisés - quoi utiliser quand?

Cela ressemble à une question similaire et n'a pas reçu beaucoup de réponses.

En omettant des tests tels que Cook's D, et en regardant simplement les résidus en tant que groupe, je suis intéressé par la façon dont les autres utilisent les résidus lors de l'évaluation de la qualité de l'ajustement. J'utilise les résidus bruts:

dans un QQ-plot, pour évaluer la normalité
dans un diagramme de dispersion de par rapport aux résidus, pour la vérification du globe oculaire (a) de l'hétéroscédasticité et (b) de l'autocorrélation en série. $y$

Pour tracer par rapport aux résidus pour examiner les valeurs de où des valeurs aberrantes peuvent se produire, je préfère utiliser les résidus étudiés . La raison de ma préférence est qu'elle permet de visualiser facilement quels résidus pour lesquels les valeurs sont problématiques, bien que les résidus normalisés fournissent un résultat extrêmement similaire. Ma théorie sur laquelle on utilise est que cela dépend de l'université dans laquelle on est allé. $y$ $y$ $y$

Est-ce similaire à la façon dont les autres utilisent les résidus? D'autres utilisent-ils ce nombre de graphiques en combinaison avec des statistiques récapitulatives?

goodness-of-fit residuals

— Michelle
source

Les résidus étudiés sont sans aucun doute meilleurs pour détecter les valeurs aberrantes et, peut-être, un peu mieux pour l'inspection de l'hétéroscédasticité. À d'autres fins, cela ne fait aucune différence pour moi quels résidus utiliser.

— ttnphns

Pour attirer l'attention sur une question, Michelle, ou demander un changement de statut (comme CW), veuillez suivre le lien "signaler" sous la question. Cela avertira automatiquement tous les modérateurs. L'intégration de demandes dans des questions, des commentaires ou des réponses est aléatoire, car elle repose sur l'espoir qu'un modérateur (ou un autre utilisateur de haut niveau) la lira réellement dans un délai raisonnable!

— whuber

@whuber Ah, vous voyez, je pensais que l'un d'entre vous finirait par le lire. :) Merci pour l'astuce sur l'utilisation des drapeaux.

— Michelle

Salut @ttnphns Pourquoi seraient-ils meilleurs? En particulier, pourquoi est-il préférable d'étudier que de standardiser? (Je n'ai jamais vraiment connu la réponse ici)

— Peter Flom - Réintègre Monica

@Peter, les résidus Studentized sont moins "déformés" par l'algo d'ajustement OLS et sont plus proches de la notion théorique "d'erreurs" . Ils peuvent être directement comparés à différentes régions de la ligne d'ajustement, de sorte que leur décision est meilleure si un point est une valeur aberrante.

— ttnphns

Réponses:

Ce n'est pas tant une réponse qu'une clarification de la terminologie. Votre question porte sur les résidus bruts, standardisés et studentisés. Cependant, ce n'est pas la terminologie utilisée par la plupart des statisticiens, bien que je note que vos notes de classe indiquent que c'est le cas.

Raw: comme vous l'avez.

Standardisé: il s'agit en fait des résidus bruts divisés par la véritable déviation standard des résidus. Comme l'écart-type réel est rarement connu, un résidu normalisé n'est presque jamais utilisé.

Studentized en interne: parce que l'écart type réel des résidus n'est généralement pas connu, l'écart type estimé est utilisé à la place. Il s'agit d'un résidu interétudiant étudiant, et c'est ce que vous avez appelé standardisé.

Étudiée en externe: identique au résidu en étudiant en interne, sauf que l'estimation de l'écart-type des résidus est calculée à partir d'une régression en laissant de côté l'observation en question.

Pearson: le résidu brut divisé par l'écart-type de la variable de réponse (la variable y) plutôt que des résidus. Vous ne l'avez pas répertorié.

"en laisser un": n'a pas de nom formel, mais il est identique aux notes de classe.

standardisé "en laisser un": n'a pas non plus de nom formel, mais ce n'est pas ce que les notes de classe appellent studentized.

Sources:

le même lien wiki que vous avez sur les résidus studentisés ("un résidu studentisé est le quotient résultant de la division d'un résidu par une estimation de son écart type")
documentation pour le calcul résiduel dans SAS

— Michael Cooney
source

+1 Certains statisticiens ont certainement utilisé les termes dans la question du PO (et pas toujours de manière parfaitement cohérente avec d'autres utilisant les mêmes mots). Je pense que les termes que vous utilisez deviennent de plus en plus courants, mais je ne sais pas sur quelle base nous pourrions deviner leur utilisation relativement mondiale parmi les statisticiens - les articles, par exemple, n'aident pas nécessairement parce que le statisticien moyen ne sera pas activement édition. Vous avez peut-être raison - mais comment saurions-nous? [S'il vous arrive de modifier à nouveau, vous voudrez peut-être remplacer "standardisé" vers la fin par "standardisé".]

— Glen_b -Reinstate Monica

Re: parcelles,

Le surapprentissage existe, mais le surplotage ne peut pas vraiment faire beaucoup de mal, en particulier au stade du diagnostic. Un tracé de probabilité normale normalisé ne peut pas faire de mal à côté de votre tracé QQ. Je trouve préférable d'évaluer le milieu de la distribution.

Re: résidus,

J'exécute des résidus standardisés et étudiés au stade de brouillon et finis généralement par coder les résidus standardisés. Je ne sais pas ce que les autres exécutent réellement, car les diagnostics sont vraiment codés dans le matériel de réplication que je trouve en ligne.

Re: diagnostics,

vifhettest $R^2$

— Fr.
source