J'ai récemment trouvé l'estimateur quantile suivant pour une variable aléatoire continue dans un article (non statistique, appliqué): pour un vecteur $x$ long de 100 , le quantile 1% est estimé avec $\min(x)$ . Voici comment il fonctionne: ci-dessous est un graphique de densité de noyau des réalisations de l' estimateur $\min(x)$ partir de 100 000 exécutions de simulation d'échantillons de 100 longueurs à partir de la distribution $N(0,1)$ . La ligne verticale est la vraie valeur, c'est-à-dire le quantile théorique de 1% de la distribution $N(0,1)$ . Le code de la simulation est également donné.

M=10e5; n=100
quantiles=rep(NA,M)
for(i in 1:M){ set.seed(i); quantiles[i]=min(rnorm(n)) }
plot(density(quantiles),main="Kernel density estimate of quantiles from M=100,000 simulation runs"); abline(v=qnorm(1/n))

Le graphique semble qualitativement similaire pour une distribution (juste un exemple). Dans les deux cas, l'estimateur est biaisé à la baisse. Sans comparaison avec un autre estimateur, il est cependant difficile de dire à quel point il est bon autrement. D'où ma question: existe-t-il d'autres estimateurs qui sont meilleurs, par exemple, dans le sens de l'erreur absolue attendue ou de l'erreur quadratique attendue? $t(3)$

quantiles

— Richard Hardy
source

Eh bien, 1% de 100 est égal à 1, donc est le quantile empirique de 1%.

min {X_{i}}

$\min\{X_i\}$

— Xi'an

@ Xi'an, en même temps, ce n'est pas un point tel que 1% des données ont des valeurs plus faibles tandis que 99% des données ont des valeurs plus élevées. En fait, 0% des données ont des valeurs inférieures à selon la conception de cet estimateur. Je me demande si ce n'est pas un problème. (Dans cet exemple, nous pouvons supposer que la distribution est continue).

min (x)

$\min(x)$

— Richard Hardy

D'un autre côté, estimer le quantile de 1% sur la base de 100 observations demande trop peu aux données.

— Xi'an

"Bon" dans quel sens? Quelle est votre fonction de perte et quel est votre modèle de probabilité sous-jacent?

— whuber

Le minimum pourrait être un très bon estimateur, comme lorsque les distributions ont une borne inférieure finie. Lorsque la queue gauche peut être lourde, le minimum peut avoir une variance extrêmement importante et donc être un mauvais estimateur. La symétrie n'a pas d'importance, car la distribution du minimum ne sera pas affectée sensiblement par la queue supérieure. Pour les problèmes paramétriques, en particulier dans les familles à l'échelle de l'emplacement, la réponse d'Aksakal indique comment construire de meilleurs estimateurs d'un centile. Ceux-ci sont généralement appelés intervalles de tolérance. Pour les problèmes non paramétriques, tout dépend.

— whuber

Un échantillon de 100 observations au minimum est utilisé comme estimateur de 1% de quantile dans la pratique. Je l'ai vu appelé «centile empirique».

Famille de distribution connue

Si vous voulez une estimation différente ET avez une idée de la distribution des données, alors je suggère de regarder les médianes des statistiques de commande. Par exemple, ce package R les utilise pour les coefficients de corrélation de tracé de probabilité PPCC . Vous pouvez trouver comment ils le font pour certaines distributions telles que la normale. Vous pouvez voir plus de détails dans l'article de Vogel de 1986 "Le test de coefficient de corrélation de tracé de probabilité pour l'hypothèse de distribution normale, lognormale et de Gumbel" ici sur les médianes statistiques de commande sur les distributions normales et lognormales.

Par exemple, d'après l'article de Vogel, l'Eq.2 définit le min (x) de 100 observations de l'échantillon de la distribution normale standard comme suit: où l'estimation de la médiane de CDF:

M_{1} = Φ^{- 1} (F_{Oui} (min (y)))

$M_1=\Phi^{-1}(F_Y(\min(y)))$

{\hat{F}}_{Oui} (min (y)) = 1 - (1 / 2)^{1 / 100} = 0,0069

$\hat F_Y(\min(y))=1-(1/2)^{1/100}=0.0069$

Nous obtenons la valeur suivante: pour la normale standard à laquelle vous pouvez appliquer l'emplacement et l'échelle pour obtenir votre estimation du 1e centile: . $M_1=-2.46$ $\hat\mu-2.46\hat\sigma$

Voici comment cela se compare à min (x) sur la distribution normale:

Le graphique en haut est la distribution de l'estimateur min (x) du 1e centile, et celui en bas est celui que j'ai suggéré d'examiner. J'ai également collé le code ci-dessous. Dans le code, je choisis aléatoirement la moyenne et la dispersion de la distribution normale, puis je génère un échantillon de 100 observations de longueur. Ensuite, je trouve min (x), puis je le redimensionne à la normale standard en utilisant les vrais paramètres de la distribution normale. Pour la méthode M1, je calcule le quantile en utilisant la moyenne et la variance estimées, puis je le redimensionne à la norme en utilisant à nouveau les vrais paramètres. De cette façon, je peux tenir compte de l'impact de l'erreur d'estimation de la moyenne et de l'écart-type dans une certaine mesure. Je montre également le vrai centile avec une ligne verticale.

Vous pouvez voir comment l'estimateur M1 est beaucoup plus serré que min (x). C'est parce que nous utilisons notre connaissance du vrai type de distribution , c'est-à-dire normal. Nous ne connaissons toujours pas les vrais paramètres, mais même le fait de connaître la famille de distribution a considérablement amélioré notre estimation.

CODE OCTAVE

Vous pouvez l'exécuter ici en ligne: https://octave-online.net/

N=100000
n=100

mus = randn(1,N);
sigmas = abs(randn(1,N));
r = randn(n,N).*repmat(sigmas,n,1)+repmat(mus,n,1);
muhats = mean(r);
sigmahats = std(r);

fhat = 1-(1/2)^(1/100)
M1 = norminv(fhat)
onepcthats = (M1*sigmahats + muhats - mus) ./ sigmas;

mins = min(r);
minonepcthats = (mins - mus) ./ sigmas;

onepct = norminv(0.01)

figure
subplot(2,1,1)
hist(minonepcthats,100)
title 'min(x)'
xlims = xlim;
ylims = ylim;
hold on
plot([onepct,onepct],ylims)

subplot(2,1,2)
hist(onepcthats,100)
title 'M1'
xlim(xlims)
hold on
plot([onepct,onepct],ylims)

Distribution inconnue

Si vous ne savez pas de quelle distribution proviennent les données, il existe une autre approche utilisée dans les applications de risque financier . Il existe deux distributions Johnson SU et SL. Le premier est pour les cas non bornés tels que Normal et Student t, et le second est pour les limites inférieures comme lognormal. Vous pouvez adapter la distribution de Johnson à vos données, puis en utilisant les paramètres estimés, estimez le quantile requis. Tuenter (2001) a suggéré une procédure d'appariement par moment, qui est utilisée en pratique par certains.

Sera-ce mieux que min (x)? Je ne sais pas avec certitude, mais parfois cela donne de meilleurs résultats dans ma pratique, par exemple lorsque vous ne connaissez pas la distribution mais que vous savez qu'elle est inférieure.

— Aksakal
source

@ RichardHardy, j'ai ajouté une démo pour montrer ce que je suggère et comment il s'améliore sur min (x). Non, Vogel ne parle même pas de min (x). C'est mon application de la méthode des médianes à votre cas. PPCC utilise les quantiles de 1 à n'th dans l'échantillon. Dans 100 échantillons d'observation, min (x) correspond au 1er centile.

— Aksakal

Merci pour la mise à jour! Ce que je demandais, c'était si le papier de Vogel Eq.2 définit le min (x) de 100 observations échantillon : devrait-il y avoir au lieu de min (x)? Comme sinon, en effet, min (x) est redéfini comme quelque chose de différent du min (x) littéral, c'est mon impression.

M_{1}

$M_1$

— Richard Hardy

@RichardHardy, ils réordonnent les observations, donc M1 va être min (x)

— Aksakal

comme estimateur quantile pour le quantile 1% de

Famille de distribution connue

CODE OCTAVE

Distribution inconnue