Pourquoi l'écart type de l'échantillon est-il un estimateur biaisé de ?


57

Selon l'article de Wikipedia sur l' estimation non biaisée de l'écart type, l'échantillon SD

s=1n1i=1n(xix¯)2

est un estimateur biaisé du SD de la population. Il est écrit que .E(s2)E(s2)

NB Les variables aléatoires sont indépendantes et chaquexiN(μ,σ2)

Ma question est double:

  • Quelle est la preuve de la partialité?
  • Comment calcule-t-on l'attente de l'écart type de l'échantillon?

Ma connaissance des maths / stats n'est qu'intermédiaire.


4
Vous trouverez une réponse à ces deux questions dans l'article de Wikipedia sur la distribution de Chi .
whuber

Réponses:


57

La réponse de NRH à cette question donne une preuve simple et intéressante du biais de l'écart type de l'échantillon. Ici, je vais calculer explicitement l'espérance de l'écart type de l'échantillon (la deuxième question de l'affiche originale) à partir d'un échantillon normalement distribué, point auquel le biais est clair.

La variance non biaisée d'un ensemble de points estx1,...,xn

s2=1n1i=1n(xix¯)2

Si les sont normalement distribués, c’est un fait quexi

(n1)s2σ2χn12

où est la vraie variance. La a une densité de probabilitéχ 2 kσ2χk2

p(x)=(1/2)k/2Γ(k/2)xk/21ex/2

en utilisant cela, nous pouvons déduire la valeur attendue de ;s

E(s)=σ2n1E(s2(n1)σ2)=σ2n10x(1/2)(n1)/2Γ((n1)/2)x((n1)/2)1ex/2 dx

qui découle de la définition de la valeur attendue et du fait que est la racine carrée d'une variable distribuée . L'astuce consiste maintenant à réorganiser les termes afin que l'intégrande devienne une autre densité de : χ2χ2s2(n1)σ2χ2χ2

E(s)=σ2n10(1/2)(n1)/2Γ(n12)x(n/2)1ex/2 dx=σ2n1Γ(n/2)Γ(n12)0(1/2)(n1)/2Γ(n/2)x(n/2)1ex/2 dx=σ2n1Γ(n/2)Γ(n12)(1/2)(n1)/2(1/2)n/20(1/2)n/2Γ(n/2)x(n/2)1ex/2 dxχn2 density

maintenant nous connaissons l'intégrale et la dernière ligne est égale à 1, puisqu'il s'agit d'une densité de . Simplifier un peu les constantes donne χn2

E(s)=σ2n1Γ(n/2)Γ(n12)

Donc le biais de ests

σE(s)=σ(12n1Γ(n/2)Γ(n12))σ4n
comme .n

Il n'est pas difficile de voir que ce biais n'est pas égal à 0 pour un fini , prouvant ainsi que l'écart type de l'échantillon est biaisé. En dessous du biais se trouve la courbe en fonction de pour en rouge avec en bleu:nnσ=11/4n

entrez la description de l'image ici


(+1) Bonne réponse. J'espère que cela ne vous dérange pas, j'ai peaufiné quelques petites choses et ajouté un résultat asymptotique concernant le biais. Je suppose que vous pouvez superposer la courbe à votre graphique, mais c'est probablement inutile. À votre santé. :)(4n)1
cardinal

Vous avez vraiment eu beaucoup de mal à faire cette macro. Lorsque j'ai vu le message pour la première fois il y a environ une minute, je pensais montrer le biais en utilisant la règle de Jensen, mais quelqu'un l'a déjà fait.
Michael Chernick

2
Bien sûr, c’est une façon détournée de montrer que l’écart type est biaisé - je répondais principalement à la deuxième question de l’affiche originale: "Comment calcule-t-on l’attente de l’écart type?".
Macro

2
Un autre point qui mérite peut-être d'être mentionné est que ce calcul permet de lire immédiatement ce que l'estimateur UMVU de l'écart type est dans le cas gaussien: on multiplie simplement par l'inverse du facteur d'échelle qui apparaît dans la preuve. Ceci généralise assez facilement les estimateurs UMVU de . sσk
cardinal

2
Désolé, Macro. La même approche intégrale de base que vous avez utilisée fonctionnera, vous obtiendrez simplement un facteur de mise à l'échelle différent de , les arguments gamma que vous obtenez étant des fonctions de . C'est ce que je voulais dire, mais le résultat est un peu trop concis. :)skk
cardinal

43

Vous n'avez pas besoin de normalité. Tout ce dont vous avez besoin est que est un estimateur sans biais de la variance . Puis utilisez que la fonction racine carrée est strictement concave telle que (par une forme forte de l'inégalité de Jensen ) sauf si la distribution de dégénère à .

s2=1n1i=1n(xix¯)2
σ2
E(s2)<E(s2)=σ
s2σ2

19

Complétant la réponse de NRH, si quelqu'un enseigne cela à un groupe d'étudiants qui n'ont pas encore étudié l'inégalité de Jensen, il est possible de définir l'écart type de l'échantillon supposons que soit pas dégénéré (donc, ), et remarquez les équivalences SnVar[Sn]00<Var[Sn]=E[S2n]-E2[Sn]

Sn=i=1n(XiX¯n)2n1,
SnVar[Sn]0
0<Var[Sn]=E[Sn2]E2[Sn]E2[Sn]<E[Sn2]E[Sn]<E[Sn2]=σ.
En utilisant notre site, vous reconnaissez avoir lu et compris notre politique liée aux cookies et notre politique de confidentialité.
Licensed under cc by-sa 3.0 with attribution required.