Statistiques d'ordre approximatif pour les variables aléatoires normales


39

Existe-t-il des formules bien connues pour les statistiques d'ordre de certaines distributions aléatoires? En particulier, les statistiques du premier et du dernier ordre d’une variable aléatoire normale, mais une réponse plus générale serait également appréciée.

Edit: Pour clarifier, je cherche des formules approximatives qui peuvent être plus ou moins explicitement évaluées, pas l’expression intégrale exacte.

Par exemple, j'ai vu les deux approximations suivantes pour la statistique de premier ordre (c'est-à-dire le minimum) d'une va normale:

e1:nμn12n1σ

et

e1:nμ+Φ1(1n+1)σ

Le premier, pour , donne approximativement ce qui semble être un lien extrêmement lâche.n=200e1:200μ10σ

La seconde donne alors qu’un rapide Monte Carlo donne , ce n’est donc pas une mauvaise approximation mais pas géniale non plus, et plus important encore, je n'ai aucune idée de la provenance.e1:200μ2.58σe1:200μ2.75σ

De l'aide?


4
Si vous utilisez R, voir la fonction points .
cardinal

1
@probabilityislogic a donné une bonne intuition pour les approximations que vous avez énumérées. Serait-il utile que je vous en donne plus d'un point de vue différent ou avez-vous satisfait votre curiosité à ce sujet?
cardinal

Réponses:


31

La référence classique est Royston (1982) [1], dont les algorithmes vont au-delà des formules explicites. Il cite également une formule bien connue de Blom (1958): E(r:n)μ+Φ1(rαn2α+1)σavecα=0.375. Cette formule donne un multiplicateur de -2,73 pourn=200,r=1.

[1]: Algorithme AS 177: Statistiques attendues de l'ordre normal (exactes et approximatives), JP Royston. Journal de la Société royale de statistique. Série C (Statistiques appliquées) Vol. 31, N ° 2 (1982), pages 161-165


21

La distribution de la statistique d'ordre i de toute variable aléatoire continue avec un PDF est donnée par la distribution du composé "beta-F". La façon intuitive de penser à cette distribution, est de considérer la statistique ième ordre dans un échantillon de . Maintenant, pour que la valeur de la statistique d'ordre I d'une variable aléatoire X soit égale à x, nous avons besoin de 3 conditions:NXx
  1. valeurs inférieures à x , cela a une probabilité F X ( x ) pour chaque observation, où F X ( x ) = P r ( X < x ) est le facteur de conversion de la variable aléatoire X.i1xFX(x)FX(x)=Pr(X<x)
  2. valeurs supérieures à x , probabilité 1 - F X ( x )Nix1FX(x)
  3. Une valeur à l' intérieur d' une infime intervalle contenant , ceci a probabilité f X ( x ) d xf X ( x ) d x = d F X ( x ) = P r ( x < X < x + d x ) est le PDF de la variable aléatoire XxfX(x)dxfX(x)dx=dFX(x)=Pr(x<X<x+dx)X

Il y a façons de faire ce choix, nous avons donc:(N1)(N1i1)

fi(xi)=N!(i1)!(Ni)!fX(xi)[1FX(xi)]Ni[FX(xi)]i1dx

EDIT dans mon message original, j’ai fait une très mauvaise tentative d’aller plus loin à partir de ce moment-là, et les commentaires ci-dessous le reflètent. J'ai cherché à rectifier cela ci-dessous

Si nous prenons la valeur moyenne de ce pdf, nous obtenons:

E(Xi)=xifi(xi)dxi

Et dans cette intégrale, nous faisons le changement suivant de la variable (en prenant l'allusion de @ henry), et l'intégrale devient:pi=FX(xi)

E(Xi)=01FX1(pi)Beta(pi|i,Ni+1)dpi=EBeta(pi|i,Ni+1)[FX1(pi)]

Il s’agit donc de la valeur attendue du CDF inverse, qui peut être approximée à l’aide de la méthode delta pour donner:

EBeta(pi|i,Ni+1)[FX1(pi)]FX1[EBeta(pi|i,Ni+1)]=FX1[iN+1]

To make a better approximation, we can expand to 2nd order (prime denoting differentiation), and noting that the second derivative of an inverse is:

2a2FX1(a)=FX(FX1(a))[FX(FX1(a))]3=fX(FX1(a))[fX(FX1(a))]3

Let νi=FX1[iN+1]. Then We have:

EBeta(pi|i,Ni+1)[FX1(pi)]FX1[νi]VarBeta(pi|i,Ni+1)[pi]2fX(νi)[fX(νi)]3
=νi(iN+1)(1iN+1)2(N+2)fX(νi)[fX(νi)]3

Now, specialising to normal case we have

fX(x)=1σϕ(xμσ)fX(x)=xμσ3ϕ(xμσ)=xμσ2fX(x)
FX(x)=Φ(xμσ)FX1(x)=μ+σΦ1(x)

Note that fX(νi)=1σϕ[Φ1(iN+1)] And the expectation approximately becomes:

E[xi]μ+σΦ1(iN+1)+(iN+1)(1iN+1)2(N+2)σΦ1(iN+1)[ϕ[Φ1(iN+1)]]2

And finally:

E[xi]μ+σΦ1(iN+1)[1+(iN+1)(1iN+1)2(N+2)[ϕ[Φ1(iN+1)]]2]

Although as @whuber has noted, this will not be accurate in the tails. In fact I think it may be worse, because of the skewness of a beta with different parameters


1
"Maximum likelihood estimator of a random variable"? Not sure what that is, but I think you've (almost) calculated the mode.
cardinal

1
Something mysterious happens about two-thirds of the way through when suddenly μ and σ appear without warning or definition.
whuber

2
I don't mean to "pile on", but it's also hard for me to see how the quantity in brackets can be approximated by a negative number.
cardinal

1
@probabilityislogic, while at the level of calculus, you might say that in this case we're considering a bivariate function and simply maximizing over one variable instead of another, I think there are reasons mathematical, statistical, and pedagogical not to call what you've done "maximum likelihood estimation". They are too numerous to enumerate in this space, but a simple one that I think is compelling enough is that we use a particular, arcane vocabulary in statistics for a reason. Changing that on a whim for a single problem can lead to misunderstanding(s).../...
cardinal

2
@probabilityislogic (+1) for the revised answer. One suggestion, maybe is better than to mean "implies". It took staring at a couple lines for a few seconds to realize you weren't making some convergence claim.
cardinal

13

Aniko's answer relies on Blom's well known formula that involves a choice of α=3/8. It turns out that this formula is itself a mere approximation of an exact answer due to G. Elfving (1947), The asymptotical distribution of range in samples from a normal population, Biometrika, Vol. 34, pp. 111-119. Elfving's formula is aimed at the minimum and maximum of the sample, for which the correct choice of alpha is π/8. Blom's formula results when we approximate π by 3.

By using the Elfving formula rather than Blom's approximation, we get a multiplier of -2.744165. This number is closer to Erik P.'s exact answer (-2.746) and to the Monte Carlo approximation (-2.75) than is Blom's approximation (-2.73), while being easier to implement than the exact formula.


Could you provide a bit more detail as to how α=π/8 is arrived at through Elfving (1947)? It's not obvious in the article.
Anthony

1
Anthony - I am relying on the textbook Mathematical Statistics, by Samuel Wilks, pub. Wiley (1962). Exercise 8.21 on p. 249 states: "If x_(1), x_(n) are the smallest and largest order statistics of a sample of size n from a continuous c.d.f. F(x)...the random variable 2n*sqrt{[F(x_(1))][1-F(x_(n))]} has a limit distribution as n -> infinity, with mean pi/2 and variance 4-(pi^2)/4." (Sorry I don't know markup code!) For a symmetric distribution, F(x_(1)) = 1-F(x_(n)). Thus F(x_(n)) is about pi/(4n), or x_(n) is about F^(-1)(pi/(4n)). The Blom formula uses the approximation 3/(4n).
Hal M. Switkay

This reminds me of the Infamous "π=3" bill attributed to the Indiana State Legislature. (Though the wikipedia article suggests that the popular version of the story is not accurate.)
steveo'america

7

Depending on what you want to do, this answer may or may not help - I got the following exact formula from Maple's Statistics package.

with(Statistics):
X := OrderStatistic(Normal(0, 1), 1, n):
m := Mean(X):
m;

1/2_t0n!2e1/2_t02(1/21/2erf(1/2_t02))1+n(1+n)!πd_t0

By itself this isn't very useful (and it could probably be derived fairly easily by hand, since it's the minimum of n random variables), but it does allow for quick and very accurate approximation for given values of n - much more accurate than Monte Carlo:

evalf(eval(m, n = 200));
evalf[25](eval(m, n = 200));

gives -2.746042447 and -2.746042447451154492412344, respectively.

(Full disclosure - I maintain this package.)


1
@ProbabilityIsLogic derived this integral for all order statistics in the first half of his reply.
whuber
En utilisant notre site, vous reconnaissez avoir lu et compris notre politique liée aux cookies et notre politique de confidentialité.
Licensed under cc by-sa 3.0 with attribution required.