Comment puis-je trouver l'écart-type de l'écart-type de l'échantillon à partir d'une distribution normale?


11

Pardonnez-moi si j'ai raté quelque chose d'assez évident.

Je suis physicien avec ce qui est essentiellement une distribution (histogramme) centrée sur une valeur moyenne qui se rapproche d'une distribution normale. La valeur importante pour moi est l'écart type de cette variable aléatoire gaussienne. Comment pourrais-je essayer de trouver l'erreur sur l'écart-type de l'échantillon? J'ai l'impression que cela a quelque chose à voir avec l'erreur sur chaque bac de l'histogramme d'origine.


Un indice est fourni sur stats.stackexchange.com/questions/26924 . En général, l'erreur d'échantillonnage d'une variance peut être calculée en fonction des quatre premiers moments de la distribution et, par conséquent, l'erreur d'échantillonnage de la SD peut au moins être estimée à partir de ces moments.
whuber

Réponses:


12

Il semble que vous demandiez un calcul de l'écart type de l'écart type échantillon. Autrement dit, vous demandez , oùS(s)=vuner(s)

s=1n-1je=1n(Xje-X¯),

¯ XX1,...,XnN(μ,σ2) et est la moyenne de l'échantillon.X¯

Tout d'abord, nous savons par les propriétés de base de la variance que

vuner(s)=E(s2)-E(s)2

Puisque la variance de l'échantillon est non biaisée, nous connaissons . Dans Pourquoi l'écart type échantillon d' un estimateur biaisé de ? , est calculé, à partir duquel nous pouvons déduireσ E ( s )E(s2)=σ2σE(s)

E(s)2=2σ2n-1(Γ(n/2)Γ(n-12))2

par conséquent

S(s)=E(s2)-E(s)2=σ1-2n-1(Γ(n/2)Γ(n-12))2

Bon point. J'ai obtenu une estimation de la variance de s ^ 2. La racine carrée donne une estimation de l'écart type de s ^ 2. Mais vous avez répondu à la question réelle qui consistait à obtenir l'écart type de l'art. Je suppose que pour des raisons pratiques, vous voudriez aussi remplacer σ par s pour obtenir une estimation en utilisant la formule.
Michael R. Chernick

Oui, c'est vrai, vous pouvez remplacer par et cette approximation fonctionne bien même pour des tailles d'échantillon modestes - j'ai fait des tests avec . s n = 20σsn=20
Macro

11

La quantité a une distribution chi carré avec degrés de liberté lorsque les échantillons sont indépendants et distribués avec la même distribution normale Cette quantité peut être utilisée pour obtenir la confiance intervalles pour la variance de la normale et son écart type. Si vous avez les valeurs brutes et pas seulement la valeur centrale des casiers, vous pouvez calculer . n - 1 s 2X=(n-1)s2/σ2n-1s2

On sait que si a une distribution khi carré avec degrés de liberté, sa variance est de . Sachant cela et le fait que nous obtenons que a une variance égale à Bien que soit inconnu, vous pouvez l'approcher par et vous avez une idée approximative de la variance de .n - 1 2 ( n - 1 ) V a r ( c X ) = c 2 V a r ( X ) s 2 2 ( n - 1 ) σ 4Xn-12(n-1)Vuner(cX)=c2Vuner(X)s2

2(n-1)σ4(n-1)2=2σ4n-1.
σ4s4s2

σ2s4σ4

s4σ4σ4

2
C'est peut-être le manque de sommeil, mais n'est-ce pas comme un raisonnement circulaire?
Néstor

Nous avons supposé dès le départ que les données provenaient d'une distribution normale, il n'y a donc pas de problème aberrant. Je voulais dire rude comme le suggère Macro. Je suis d'accord que la taille de l'échantillon affecte la proximité de s ^ 4 avec σ ^ 4. Mais l'inquiétude concernant les valeurs aberrantes est hors de la base Nesp. Si vous me votez pour cela, je pense que c'est très injuste. Ce que j'ai présenté était la méthode standard d'estimation de l'écart type pour s ^ 2 lorsque les données sont NORMALEMENT DISTRIBUÉES.
Michael R. Chernick

@Nesp, Michael a donné un estimateur cohérent de la variance de l'écart-type de l'échantillon par rapport à un échantillon normalement distribué - pour les grands échantillons, il fera bien - simulez-le et découvrez-le. Je ne sais pas pourquoi vous pensez que c'est un raisonnement circulaire.
Macro

7

σ

X=(X1,...,Xn)(μ,σ)

L(μ,σ)1σnexp(-12σ2j=1n(Xj-μ)2)

(μ^,σ^)=(X¯,s)s=1nj=1n(Xj-X¯)2σ

Rp(σ)=souperμL(μ,σ)L(μ^,σ^)=(σ^σ)nexp[n2(1-(σ^σ)2)]

Rp:R+(0,1]0,1470,95R

data = rnorm(30)
n = length(data)
sg = sqrt(mean((data-mean(data))^2))
# Profile likelihood
rp = function(sigma) return( (sg/sigma)^n*exp(0.5*n*(1-(sg/sigma)^2))  )
vec = rvec = seq(0.5,1.5,0.01)
for(i in 1:length(rvec)) rvec[i] = rp(vec[i])
plot(vec,rvec,type="l")
rpc = function(sigma) return(rp(sigma)-0.147)
# Approximate 95% confidence interval
c(uniroot(rpc,c(0.7,0.8))$root,uniroot(rpc,c(1.1,1.3))$root)

σje=(L,U)σ2je=(L2,U2)


Je pense qu'il voulait vraiment juste l'écart-type de l'al.
Michael R. Chernick
En utilisant notre site, vous reconnaissez avoir lu et compris notre politique liée aux cookies et notre politique de confidentialité.
Licensed under cc by-sa 3.0 with attribution required.