Quels avantages les «résidus étudiés en interne» offrent-ils par rapport aux résidus estimés bruts en termes de diagnostic de points de données potentiellement influents?

10

La raison pour laquelle je pose cette question est qu'il semble que les résidus étudiés en interne semblent avoir le même schéma que les résidus estimés bruts. Ce serait formidable si quelqu'un pouvait offrir une explication.

residuals

— Scortchi - Réintégrer Monica
source

13

Supposons un modèle de régression avec la matrice de conception (une colonne suivie de vos prédicteurs), prédictions (où est la "matrice chapeau"), et les résidus . Le modèle de régression suppose que les vraies erreurs ont toutes la même variance (homoscédasticité): $\bf{y} = \bf{X} \bf{\beta} + \bf{\epsilon}$ $\bf{X}$ $\bf{1}$ $\hat{\bf{y}} = \bf{X} (\bf{X}' \bf{X})^{-1} \bf{X}' \bf{y} = \bf{H} \bf{y}$ $\bf{H}$ $\bf{e} = \bf{y} - \hat{\bf{y}}$ $\bf{\epsilon}$

homoskedasticity

La matrice de covariance des résidus est . Cela signifie que les résidus bruts ont des variances différentes - la diagonale de la matrice . Les éléments diagonaux de sont les valeurs de chapeau . $V(\bf{e}) = \sigma^{2} (\bf{I} - \bf{H})$ $e_{i}$ $\sigma^{2} (1-h_{ii})$ $\sigma^{2} (\bf{I} - \bf{H})$ $\bf{H}$ $h_{ii}$

Les résidus véritablement standardisés avec la variance 1 partout sont donc . Le problème est que la variance d'erreur est inconnue et que les résidus étudiés en interne / externe résultent de choix particuliers pour une estimation . $\bf{e} / (\sigma \sqrt{1 - h_{ii}})$ $\sigma$ $\bf{e} / (\hat{\sigma} \sqrt{1 - h_{ii}})$ $\hat{\sigma}$

Étant donné que les résidus bruts devraient être hétéroscédastiques même si les sont homoscédastiques, les résidus bruts sont théoriquement moins bien adaptés pour diagnostiquer des problèmes avec l'hypothèse d'homoscédasticité que les résidus normalisés ou étudiés. $\epsilon$

— caracal
source

Les différences de définition entre les deux différents types de résidus (ainsi que les résidus externes étudiés) sont claires pour moi. En pratique, cependant, je ne pense pas avoir rencontré de cas (du moins avec mes propres données) où les résidus étudiés en interne ont un schéma distinct par rapport aux résidus estimés. D'un autre côté, les résidus étudiés à l'extérieur peuvent potentiellement présenter un schéma distinct des résidus estimés. * Je ne dis pas que les deux types de résidus sont identiques. Je fais référence à leurs schémas généraux.

@AlexH. Je conviens que l'avantage déclaré que j'ai ajouté ajouté est théorique . Construire une situation empirique simulée où les résidus bruts sont trompeurs et les résidus étudiés fournir une image plus précise des distributions conditionnelles serait un bon ajout.

— caracal

12

Sur quels types de données avez-vous effectué vos parcelles d'essai? Lorsque toutes les hypothèses se vérifient (ou se rapprochent), je ne m'attendrais pas à une grande différence entre les résidus bruts et studentisés, le principal avantage est lorsqu'il y a des points très influents. Considérez ces données (simulées) qui ont une tendance linéaire positive et une valeur aberrante très influente:

entrez la description de l'image ici

Voici le tracé des valeurs ajustées en fonction des résidus bruts:

entrez la description de l'image ici

Notez que la valeur du résidu de notre point d'influence est plus proche de 0 que les résidus minimum et maximum du reste des points (ce n'est pas dans les 3 résidus bruts les plus extrêmes).

Voici maintenant l'intrigue avec les résidus standardisés (étudiés en interne):

entrez la description de l'image ici

Dans ce graphique, le résidu normalisé se distingue parce que son influence a été prise en compte.

Dans cet exemple simple, il est facile de voir ce qui se passe, mais que se passerait-il si nous avions plus de 1 variable et un point très influent, mais pas inhabituel dans les graphiques en 2 dimensions? Cela ne serait pas évident à partir de parcelles de résidus bruts, mais les résidus étudiés montreraient ce résidu comme plus extrême. $x$

— Greg Snow
source