Théorie des valeurs extrêmes - Spectacle: Normal à Gumbel

Le maximum de iid Standardnormals converge vers la distribution standard de Gumbel selon Extreme Value Theory . $X_1,\dots,X_n. \sim$

Comment pouvons-nous montrer cela?

Nous avons

P (max X_{je} \leq X) = P (X_{1} \leq X, \dots, X_{n} \leq X) = P (X_{1} \leq X) \dots P (X_{n} \leq X) = F (X)^{n}

$P(\max X_i \leq x) = P(X_1 \leq x, \dots, X_n \leq x) = P(X_1 \leq x) \cdots P(X_n \leq x) = F(x)^n$

Nous devons trouver / choisir $a_n>0,b_n\in\mathbb{R}$ séquences de constantes telles que:

F {({une}_{n} X + b_{n})}^{n} \to^{n \to \infty} g (X) = e^{- \exp (- X)}

$F\left(a_n x+b_n\right)^n\rightarrow^{n\rightarrow\infty} G(x) = e^{-\exp(-x)}$

Pouvez-vous le résoudre ou le trouver dans la littérature?

Il y a quelques exemples pg.6 / 71 , mais pas pour le cas normal:

Φ {({une}_{n} X + b_{n})}^{n} = {(\frac{1}{\sqrt{2 π}} \int_{- \infty}^{{une}_{n} X + b_{n}} e^{- \frac{y^{2}}{2}} ré y)}^{n} \to e^{- \exp (- X)}

$\Phi\left(a_n x+b_n\right)^n=\left(\frac{1}{\sqrt{2\pi}}\int_{-\infty}^{a_n x+b_n} e^{-\frac{y^2}{2}}dy\right)^n\rightarrow e^{-\exp(-x)}$

— emcor
source

Réponses:

Une manière indirecte est la suivante:
pour les distributions absolument continues, Richard von Mises (dans un article de 1936 "La distribution de la plus grande de n valeurs" , qui semble avoir été reproduit -en anglais? - dans une édition de 1964 avec une sélection de papiers de son), a fourni la condition suffisante suivante pour que le maximum d'un échantillon converge vers le Gumbel standard, $G(x)$ :

Soit la fonction de distribution commune de iid variables aléatoires, et leur densité commune. Puis si $F(x)$ $n$ $f(x)$

lim_{X \to F^{- 1} (1)} (\frac{ré}{ré X} \frac{(1 - F (X))}{F (X)}) = 0 \Rightarrow X_{(n)} \overset{ré}{\to} g (X)

$\lim_{x\rightarrow F^{-1}(1)}\left (\frac d{dx}\frac {(1-F(x))}{f(x)}\right) =0 \Rightarrow X_{(n)} \xrightarrow{d} G(x)$

En utilisant la notation habituelle pour la normale standard et en calculant la dérivée, nous avons

\frac{ré}{ré X} \frac{(1 - Φ (X))}{ϕ (X)} = \frac{- ϕ (X)^{2} - ϕ^{'} (X) (1 - Φ (X))}{ϕ (X)^{2}} = \frac{- ϕ^{'} (X)}{ϕ (X)} \frac{(1 - Φ (X))}{ϕ (X)} - 1

$\frac d{dx}\frac {(1-\Phi(x))}{\phi(x)} = \frac {-\phi(x)^2-\phi'(x)(1-\Phi(x))}{\phi(x)^2} = \frac {-\phi'(x)}{\phi(x)}\frac {(1-\Phi(x))}{\phi(x)}-1$

Notez que . De plus, pour la distribution normale, . Nous devons donc évaluer la limite $\frac {-\phi'(x)}{\phi(x)} =x$ $F^{-1}(1) = \infty$

lim_{X \to \infty} (X \frac{(1 - Φ (X))}{ϕ (X)} - 1)

$\lim_{x\rightarrow \infty}\left (x\frac {(1-\Phi(x))}{\phi(x)}-1\right)$

Mais est le rapport de Mill, et nous savons que le rapport de Mill pour la normale standard tend à lorsque croît. Donc $\frac {(1-\Phi(x))}{\phi(x)}$ $1/x$ $x$

lim_{X \to \infty} (X \frac{(1 - Φ (X))}{ϕ (X)} - 1) = X \frac{1}{X} - 1 = 0

$\lim_{x\rightarrow \infty}\left (x\frac {(1-\Phi(x))}{\phi(x)}-1\right) = x\frac {1}{x}-1= 0$

et la condition suffisante est remplie.

Les séries associées sont données comme

{une}_{n} = \frac{1}{n ϕ (b_{n})}, b_{n} = Φ^{- 1} (1 - 1 / n)

$a_n = \frac 1{n\phi(b_n)},\;\;\; b_n = \Phi^{-1}(1-1/n)$

ADDENDA

C'est de ch. 10.5 du livre HA David & HN Nagaraja (2003), "Order Statistics" (3e édition) .

$\xi_a = F^{-1}(a)$ . De plus, la référence à de Haan est "Haan, LD (1976). Exemples d'extrêmes: une introduction élémentaire. Statistica Neerlandica, 30 (4), 161-172. " Mais attention car certaines notations ont un contenu différent dans de Haan - par exemple dans le livre est la fonction de densité de probabilité, tandis que dans de Haan signifie la fonction du livre (c'est-à-dire le rapport de Mill). De Haan examine également la condition suffisante déjà différenciée. $f(t)$ $f(t)$ $w(t)$

entrez la description de l'image ici

— Alecos Papadopoulos
source

Je ne suis pas sûr d'avoir compris votre solution. Vous avez donc pris pour être le CDF normal standard. J'ai suivi et suis d'accord que la condition suffisante est remplie. Mais comment les séries associées et sont-elles soudainement données par celles-ci?

F

$F$

a_{n}

$a_n$

b_{n}

$b_n$

— renrenthehamster

@renrenthehamster Je pense que ces deux parties sont déclarées indépendamment (pas de connexion directe).

— emcor

Et alors, comment obtenir la série associée? Quoi qu'il en soit, j'ai ouvert une question sur ce problème (et plus généralement, pour d'autres distributions au-delà de la normale standard)

— renrenthehamster

@renrenthehamster J'ai ajouté du matériel pertinent. Je ne crois pas qu'il existe une recette standard pour tous les cas, pour trouver ces séries.

— Alecos Papadopoulos

La question demande deux choses: (1) comment montrer que le maximum converge, dans le sens où converge (en distribution) pour des séquences convenablement choisies et , à la distribution de Gumbel standard et (2) comment trouver de telles séquences. $X_{(n)}$ $(X_{(n)}-b_n)/a_n$ $(a_n)$ $(b_n)$

Le premier est bien connu et documenté dans les articles originaux sur le théorème de Fisher-Tippett-Gnedenko (FTG). Le second semble plus difficile; c'est la question abordée ici.

Veuillez noter, pour clarifier certaines affirmations apparaissant ailleurs dans ce fil, que

Le maximum ne pas convergeant à quoi que ce soit: il diverge (quoique très lentement).
Il semble y avoir différentes conventions concernant la distribution de Gumbel. J'adopterai la convention selon laquelle le CDF d'une distribution de Gumbel inversée est, jusqu'à l'échelle et l'emplacement, donné par . Un maximum convenablement normalisé de variables iid normales converge vers une distribution de Gumbel inversée. $1-\exp(-\exp(x))$

Intuition

Lorsque les sont iid avec la fonction de distribution commune , la distribution du maximum est $X_i$ $F$ $X_{(n)}$

F_{n} (X) = Pr (X_{(n)} \leq X) = Pr (X_{1} \leq X) Pr (X_{2} \leq X) \dots Pr (X_{n} \leq X) = F^{n} (X) .

$F_n(x) = \Pr(X_{(n)}\le x) = \Pr(X_1 \le x)\Pr(X_2 \le x) \cdots \Pr(X_n \le x) = F^n(x).$

Lorsque le support de n'a pas de limite supérieure, comme avec une distribution normale, la séquence de fonctions marche pour toujours vers la droite sans limite: $F$ $F^n$

Des graphiques partiels de pour sont affichés. $F_n$ $n=1,2,2^2, 2^4, 2^8, 2^{16}$

Pour étudier les formes de ces distributions, nous pouvons déplacer chacune vers la gauche d'une certaine quantité et la redimensionner de pour les rendre comparables. $b_n$ $a_n$

Chacun des graphiques précédents a été déplacé pour placer sa médiane à et pour faire sa plage interquartile de longueur unitaire. $0$

FTG affirme que les séquences et peuvent être choisies de sorte que ces fonctions de distribution convergent de façon ponctuelle à chaque vers une distribution de valeur extrême , jusqu'à l'échelle et l'emplacement. Lorsque est une distribution normale, la distribution de valeur extrême limite particulière est un Gumbel inversé, jusqu'à l'emplacement et l'échelle. $(a_n)$ $(b_n)$ $x$ $F$

Solution

Il est tentant d'émuler le théorème de la limite centrale en normalisant pour avoir une moyenne unitaire et une variance unitaire. Cela est inapproprié, cependant, en partie parce que FTG s'applique même aux distributions (continues) qui n'ont pas de premier ou de second moment. Utilisez plutôt un centile (comme la médiane) pour déterminer l'emplacement et une différence de centiles (comme l'IQR) pour déterminer la propagation. (Cette approche générale devrait réussir à trouver et pour toute distribution continue.) $F_n$ $a_n$ $b_n$

Pour la distribution normale standard, cela s'avère facile! Soit . Un quantile de correspondant à est toute valeur pour laquelle . Rappelant la définition de , la solution est $0 \lt q \lt 1$ $F_n$ $q$ $x_q$ $F_n(x_q) = q$ $F_n(x) = F^n(x)$

X_{q; n} = F^{- 1} (q^{1 / n}) .

$x_{q;n} = F^{-1}(q^{1/n}).$

Par conséquent, nous pouvons définir

b_{n} = X_{1 / 2; n}, {une}_{n} = X_{3 / 4; n} - X_{1 / 4; n}; g_{n} (X) = F_{n} ({une}_{n} X + b_{n}) .

$b_n = x_{1/2;n},\ a_n = x_{3/4;n} - x_{1/4;n};\ G_n(x) = F_n(a_n x + b_n).$

Parce que, par construction, la médiane de est et son IQR est , la médiane de la valeur limite de (qui est une version d'une Gumbel inversée) doit être et son IQR doit être . Soit le paramètre d'échelle et le paramètre d'emplacement . Étant donné que la médiane est et que l'IQR se trouve facilement être , les paramètres doivent être $G_n$ $0$ $1$ $G_n$ $0$ $1$ $\beta$ $\alpha$ $\alpha + \beta \log\log(2)$ $\beta(\log\log(4) - \log\log(4/3))$

α = \frac{Journal Journal 2}{Journal Journal (4 / 3) - Journal Journal (4)}; β = \frac{1}{Journal Journal (4) - Journal Journal (4 / 3)} .

$\alpha = \frac{\log\log 2}{\log\log(4/3) - \log\log(4)};\ \beta = \frac{1}{\log\log(4) - \log\log(4/3)}.$

Il n'est pas nécessaire que et soient exactement ces valeurs: elles n'ont besoin que de les approcher, à condition que la limite de soit toujours cette distribution de Gumbel inversée. Une analyse simple (mais fastidieuse) pour un normal standard indique que les approximations $a_n$ $b_n$ $G_n$ $F$

{une}_{n}^{'} = \frac{Journal ((4 {Journal}^{2} (2)) / ({Journal}^{2} (\frac{4}{3})))}{2 \sqrt{2 Journal (n)}}, b_{n}^{'} = \sqrt{2 Journal (n)} - \frac{Journal (Journal (n)) + Journal (4 π {Journal}^{2} (2))}{2 \sqrt{2 Journal (n)}}

$a_n^\prime = \frac{\log \left(\left(4 \log^2(2)\right)/\left(\log^2\left(\frac{4}{3}\right)\right)\right)}{2\sqrt{2\log (n)}},\ b_n^\prime = \sqrt{2\log (n)}-\frac{\log (\log (n))+\log \left(4 \pi \log ^2(2)\right)}{2 \sqrt{2\log (n)}}$

fonctionnera bien (et est aussi simple que possible).

Les courbes bleu clair sont des graphiques partiels de pour utilisant les séquences approximatives et . La ligne rouge foncé représente la distribution de Gumbel inversée avec les paramètres et . La convergence est claire (bien que le taux de convergence pour négatif soit sensiblement plus lent). $G_n$ $n=2, 2^6, 2^{11}, 2^{16}$ $a_n^\prime$ $b_n^\prime$ $\alpha$ $\beta$ $x$

Les références

BV Gnedenko, Sur la distribution limitative de la durée maximale d'une série aléatoire . Dans Kotz et Johnson, Breakthroughs in Statistics Volume I: Foundations and Basic Theory, Springer, 1992. Traduit par Norman Johnson.

— whuber
source

@Vossler La formule dans le post d'Alecos pour converge vers comme . Il se comporte comme pour les grands .

a_{n}

$a_n$

0

$0$

n \to \infty

$n\to\infty$

{(2 \log (n) - \log (2 π))}^{- 1 / 2}

$\left(2 \log(n) - \log(2\pi)\right)^{-1/2}$

n

$n$

— whuber

Oui, c'est vrai, je l'ai réalisé peu de temps après avoir posté mon commentaire, je l'ai donc supprimé immédiatement. Je vous remercie!

— Vossler

@Jess J'avais espéré que cette réponse serait comprise comme montrant, entre autres choses, qu'il n'y a rien de tel que "la" formule: il existe une infinité de formules correctes pour et

a_{n}

$a_n$

b_{n} .

$b_n.$

— whuber

@Jess C'est mieux, car la démonstration d'une approche alternative a été la motivation pour écrire cette réponse. Je ne comprends pas votre insinuation selon laquelle je considérais qu'il était "inutile d'écrire une réponse", car c'est explicitement ce que j'ai fait ici.

— whuber

@Jess Je ne peux pas continuer cette conversation car elle est entièrement unilatérale: je n'ai pas encore reconnu tout ce que j'ai écrit dans aucune de vos caractérisations. J'arrête pendant que je suis derrière.

— whuber