Dans un article, j'ai trouvé la formule de l'écart-type d'une taille d'échantillon
où est la plage moyenne de sous-échantillons (taille ) de l'échantillon principal. Comment le nombre est-il calculé? C'est le bon numéro? 62,534
Dans un article, j'ai trouvé la formule de l'écart-type d'une taille d'échantillon
où est la plage moyenne de sous-échantillons (taille ) de l'échantillon principal. Comment le nombre est-il calculé? C'est le bon numéro? 62,534
Réponses:
Dans un échantillon de n valeurs indépendantes d'une distribution F avec pdf f , le pdf de la distribution conjointe des extrêmes min ( x ) = x [ 1 ] et max ( x ) = x [ n ] est proportionnel à
(La constante de proportionnalité est l'inverse du coefficient multinomial . Intuitivement, ce PDF commun exprime la chance de trouver la plus petite valeur dans la plage[x[1],x[1]+dx[1]), la plus grande valeur dans la plage[x[n],x[n]+dx[n]) , et le milieu valeurs moyennes entre elles dans la plage . Lorsque F est continue, nous pouvons remplacer cette plage moyenne par ( x [ 1 ] , x [ n ] ] , négligeant ainsi uniquement une quantité de probabilité "infinitésimale". Les probabilités associées, au premier ordre dans les différentiels, sont f ( x [ 1 ]f ( x etF( x [ n ] )-F( x [ 1 ] ),.Respectivement, maintenantqui rend évident où la formule vient)
Prendre l'espérance de la plage donne 2,53441 σ pour toute distribution normale avec un écart-type σ et n = 6 . La plage attendue en tant que multiple de σ dépend de la taille de l'échantillon n :
Ces valeurs ont été calculées en intégrant numériquement sur{(x,y)∈R2| x≤y}, avecFréglé sur le CDF normal standard, et divisé par l'écart-type deF(qui n'est que de1).
Une relation multiplicative similaire entre la plage attendue et l'écart-type est valable pour toute famille de distributions à l'échelle de l'emplacement, car elle est une propriété de la forme de la distribution seule. Par exemple, voici un tracé comparable pour des distributions uniformes:
et distributions exponentielles:
Les valeurs des deux graphiques précédents ont été obtenues par intégration exacte - et non numérique -, ce qui est possible en raison des formes algébriques relativement simples de et F dans chaque cas. Pour les distributions uniformes, elles sont égales à n - 1 et pour les distributions exponentielles, elles sontγ+ψ(n)=γ+ Γ ′ ( oùγest la constante d'Euler et est la fonction "polygamma", la dérivée logarithmique de la fonction Gamma d'Euler.
Bien qu'ils diffèrent (car ces distributions affichent un large éventail de formes), les trois s'accordent à peu près autour de , montrant que le multiplicateur 2,5 ne dépend pas fortement de la forme et peut donc servir d'omnibus, une évaluation robuste de l'écart-type lorsque des gammes de petits sous-échantillons sont connues. (En effet, la distribution très taillée de Student t avec trois degrés de liberté a toujours un multiplicateur autour de 2,3 pour n = 6 , pas très loin de 2,5 .)
That approximation is very close to the true sample standard deviation. I wrote a quick R script to illustrate it:
x = sample(1:10000,6000,replace=TRUE)
B = 100000
R = rep(NA,B)
for(i in 1:B){
samp = sample(x,6)
R[i] = max(samp)-min(samp)
}
mean(R)/2.534
sd(x)
which yields:
> mean(R)/2.534
[1] 2819.238
>
> sd(x)
[1] 2880.924
Now I am not sure (yet) why this works but it at least looks like (at face value) that the approximation is a decent one.
Edit: See @Whuber's exceptional comment (above) on why this works
mean(R)/2.474
equal to , very close to sd(x)
.