Quelle est la différence entre standardisation et studentisation?

21

Est-ce que dans la standardisation la variance est connue alors que dans la studentisation elle n'est pas connue et donc estimée? Je vous remercie.

standardization

— 58485362
source

2

Vous voudrez peut-être clarifier le contexte de votre question. Quel type de standardisation, quel type d'étudiantisation? À quoi servent ces valeurs?

— russellpierce

3

Si vous posez des questions sur les résidus , la terminologie n'est pas (ahem) standardisée . Différents auteurs utilisent des noms différents pour la même chose, et parfois - et malheureusement le plus confus, le même nom pour des choses différentes. Il y a ce que j'appelle (i) des résidus échelonnés (

(y - {\hat{y}}_{i}) / s

$(y-\hat{y}_i)/s$ , appelés résidus standardisés par certains auteurs); (ii) les résidus étudiés en interne (appelés standardisés par certains auteurs / packages, étudiés par d'autres); (iii) à l' extérieur studentisés / studentisés antérieures résidus

— Glen_b -Reinstate Monica

20

Un petit récapitulatif. Étant donné un modèle , où est , et , où est la "matrice chapeau". Les résidus sont La variance de la population est inconnue et peut être estimée par , l'erreur quadratique moyenne. $y=X\beta+\varepsilon$ $X$ $n\times p$ $\hat\beta=(X'X)^{-1}X'y$ $\hat y=X\hat\beta=X(X'X)^{-1}X'y=Hy$ $H=X(X'X)^{-1}X'$

e = y - \hat{y} = y - H y = (I - H) y

$e=y-\hat y=y-Hy=(I-H)y$

σ^{2}

$\sigma^2$

M S E

$MSE$

Les résidus semi-étudiés sont définis comme

e_{i}^{*} = \frac{e_{i}}{\sqrt{M S E}}

$e_i^*=\frac{e_i}{\sqrt{MSE}}$ mais, puisque la variance des résidus dépend à la fois de

σ^{2}

$\sigma^2$ et

X

$X$ , leur variance estimée est:

\hat{V} (e_{i}) = M S E (1 - h_{i i})

$\widehat V(e_i)=MSE(1-h_{ii})$ où

h_{i i}

$h_{ii}$ est le

i

$i$ ème élément diagonal de la matrice chapeau.

Les résidus standardisés , également appelés résidus étudiés en interne , sont:

r_{i} = \frac{e_{i}}{\sqrt{M S E (1 - h_{i i})}}

$r_i=\frac{e_i}{\sqrt{MSE(1-h_{ii})}}$

Cependant, l'unique et sont pas indépendants, donc ne peut pas avoir une distribution . La procédure consiste ensuite à supprimer la ème observation, à ajuster la fonction de régression aux observations restantes et à obtenir de nouveaux qui peuvent être notés par . La différence: est appelée résiduel supprimé . Une expression équivalente qui ne nécessite pas de recalcul est: désignant les nouveaux et par et $e_i$ $MSE$ $r_i$ $t$ $i$ $n-1$ $\hat y$ $\hat y_{i(i)}$

d_{i} = y_{i} - {\hat{y}}_{i (i)}

$d_i=y_i-\hat y_{i(i)}$

d_{i} = \frac{e_{i}}{1 - h_{i i}}

$d_i=\frac{e_i}{1-h_{ii}}$

X

$X$

M S E

$MSE$

X_{(i)}

$X_{(i)}$

M S E_{(i)}

$MSE_{(i)}$ , puisqu'elles ne dépendent pas de la ème observation, on obtient: Les « s sont appelés studentisés (deleted) résidus ou externe résidus étudiés .

i

$i$

t_{i} = \frac{d_{i}}{\sqrt{\frac{M S E_{(i)}}{1 - h_{i i}}}} = \frac{e_{i}}{\sqrt{M S E_{(i)} (1 - h_{i i})}} \sim t_{n - p - 1}

$t_i=\frac{d_i}{\sqrt{\frac{MSE_{(i)}}{1-h_{ii}}}} =\frac{e_i}{\sqrt{MSE_{(i)}(1-h_{ii})}}\sim t_{n-p-1}$

t_{i}

$t_i$

Voir Kutner et al., Modèles statistiques linéaires appliqués , chapitre 10.

Edit: je dois dire que la réponse de rpierce est parfaite. Je pensais que l'OP était sur le point normalisé et studentisés résidus (et en divisant par l'écart - type de la population pour obtenir les résidus standardisés avaient l' air étrange pour moi, bien sûr), mais je me trompais. J'espère que ma réponse pourra aider quelqu'un même si OT.

— Sergio
source

2

... et cette réponse est correcte dans la définition des résidus studentisés à partir d'une équation de régression. Il n'y a pas de définition d'un résidu normalisé correspondant. Le cadre de régression ne semble pas s'appliquer à la question posée. Mais c'est toujours une contribution précieuse; +1

— russellpierce

2

@rpierce, vous avez raison: dès que j'ai lu "studentisation" je lis aussi "résiduels", mais ils n'étaient que dans ma tête ;-) Désolé. J'ai remarqué mon oubli seulement après le dernier clic.

— Sergio

9

En sciences sociales, on dit généralement que les scores de Student utilisent le calcul de Student / Gosset pour estimer la variance / l'écart type de la population à partir de la variance / écart ( ) standard de l'échantillon . En revanche, les scores standardisés (un nom, un type particulier de statistique, le score Z) utiliseraient l'écart type de la population? ( ). $s$ $\sigma$

Cependant, il semble qu'il existe des différences terminologiques entre les domaines (veuillez consulter les commentaires sur cette réponse). Par conséquent, il faut procéder avec prudence en faisant ces distinctions. De plus, les scores studentisés sont rarement appelés tels et on voit généralement les valeurs «studentisées» dans le contexte de la régression. @Sergio fournit des détails sur ces types de résidus supprimés studentisés dans sa réponse.

— russellpierce
source

2

Wikipedia ajoute: "Le terme est également utilisé pour normaliser une statistique de degré supérieur par une autre statistique du même degré: par exemple, une estimation du troisième moment central serait normalisée en divisant par le cube de l'écart-type de l'échantillon. "

— Nick Stauner

2

Je pense qu'il serait plus sûr de dire que la Studentisation est la forme de standardisation disponible si la variance de la population est inconnue. Cela prend la forme d'un point de distinction technique et terminologique plutôt que d'une déclaration trompeuse sur le terme plus général et largement utilisé.

— Nick Stauner

2

@whuber: Le contexte de la question était basique, j'ai donc donné une réponse basique. Les scores standard (Z) sont calculés dans les statistiques d'introduction et est donné. Parfois, vous avez réellement l'écart-type de la population (par exemple, un recensement de données non manquant de 10 personnes).

σ

$\sigma$

— russellpierce

2

@Nick Cela semble être une bonne résolution, étant donné que diverses autorités utilisent largement la "normalisation" mais aucune (AFAIK) n'utilise jamais "studentize" dans un sens aussi large.

— whuber

2

@rpierce Le deuxième livre (Freedman, Pisani et Purves) existe depuis environ 40 ans, à travers cinq éditions (en grande partie inchangées), et a commencé sa vie en tant que texte pour le cours de statistiques d'introduction d'UC Berkeley. Il couvre à peu près tous les domaines imaginables, pas seulement la santé publique. D'un autre côté, l'une de ses forces est d'éviter de mettre l'accent sur des distinctions petites, dénuées de sens ou trop techniques, de sorte que bien qu'il soit un bon guide pour les statistiques en général, il ne peut pas être invoqué pour régler des questions obscures.

— whuber

3

Je suis très en retard pour répondre à cette question !!. Mais je n'ai pas pu trouver la réponse dans un langage très simple, donc humble tentative de répondre à cela.

Pourquoi nous faisons la standardisation? Imaginez que vous ayez deux modèles: l'un prédit la folie du temps passé à étudier les statistiques tandis que les autres prédisent la journalisation (folie) avec la quantité de temps consacrée aux statistiques.

il serait difficile de comprendre que les résidus sont tous deux dans des unités différentes. Nous les normalisons donc (théorie similaire au score Z)

Résidus normalisés: - Lorsque les résidus sont divisés par une estimation de l'écart type. En général, si la valeur absolue est> 3, c'est une source de préoccupation.

Nous l'utilisons pour étudier les valeurs aberrantes dans le modèle.

Résidu étudiant: Nous l'utilisons pour étudier la stabilité du modèle.

Le processus est simple. Nous supprimons le cas de test individuel du modèle et découvrons la nouvelle valeur prédite. La différence entre la nouvelle valeur et la valeur observée d'origine peut être normalisée en divisant l'erreur standard. cette valeur est Studentized Residual

Pour plus d'informations sur la découverte de la statique à l'aide de R - http://www.statisticshell.com/html/dsur.html

— NBhoyar
source

1

Wikipedia a une bonne vue d'ensemble sur https://en.wikipedia.org/wiki/Normalization_(statistics) :

Score standard : Normalisation des erreurs lorsque les paramètres de population sont connus. Fonctionne bien pour les populations normalement réparties $\frac{X - \mu}{\sigma}$

Statistique t de Student : normalisation des résidus lorsque les paramètres de population sont inconnus (estimés). $\frac{X - \overline{X}}{s}$

— asmaier
source