Pourquoi utiliser la théorie des valeurs extrêmes?

18

Je viens du génie civil, dans lequel nous utilisons la théorie des valeurs extrêmes , comme la distribution GEV pour prédire la valeur de certains événements, comme la plus grande vitesse du vent , c'est-à-dire la valeur à laquelle 98,5% de la vitesse du vent serait inférieure.

Ma question est la suivante: pourquoi utiliser une distribution de valeurs aussi extrême ? Ne serait-il pas plus facile de simplement utiliser la distribution globale et d'obtenir la valeur de la probabilité de 98,5% ?

quantiles extreme-value

— cqcn1991
source

24

Avis de non-responsabilité: aux points suivants, cela suppose GROSSEMENT que vos données sont normalement distribuées. Si vous êtes en train de concevoir quelque chose, parlez-en à un professionnel des statistiques et laissez cette personne signer sur la ligne en disant quel sera le niveau. Parlez à cinq d'entre eux, ou à 25 d'entre eux. Cette réponse est destinée à un étudiant en génie civil demandant "pourquoi" pas à un professionnel de l'ingénierie demandant "comment".

Je pense que la question derrière la question est "quelle est la distribution de valeur extrême?". Oui, ce sont des symboles d'algèbre. Et alors? droite?

Pensons aux inondations de 1000 ans. Ils sont grands.

Quand ils arriveront, ils tueront beaucoup de gens. Beaucoup de ponts tombent.
Tu sais quel pont ne descend pas? Je fais. Vous ne ... pas encore.

Question: Quel pont ne tombe pas en cas d'inondation de 1000 ans?
Réponse: Le pont conçu pour y résister.

Les données dont vous avez besoin pour le faire à votre façon:
Disons donc que vous disposez de 200 ans de données quotidiennes sur l'eau. Y a-t-il une inondation de 1000 ans là-dedans? Pas à distance. Vous avez un échantillon d'une queue de la distribution. Vous n'avez pas la population. Si vous connaissiez toute l'histoire des inondations, vous auriez alors la population totale de données. Réfléchissons à cela. Combien d'années de données avez-vous besoin, combien d'échantillons, pour avoir au moins une valeur dont la probabilité est de 1 sur 1000? Dans un monde parfait, vous auriez besoin d'au moins 1000 échantillons. Le monde réel est en désordre, vous en avez donc besoin de plus. Vous commencez à obtenir des chances de 50/50 à environ 4000 échantillons. Vous commencez à être garanti d'avoir plus de 1 à environ 20 000 échantillons. L'échantillon ne signifie pas «l'eau une seconde par rapport à la suivante» mais une mesure pour chaque source unique de variation - comme la variation d'une année à l'autre. Une mesure sur un an, ainsi qu'une autre mesure sur une autre année constituent deux échantillons. Si vous ne disposez pas de 4000 ans de bonnes données, vous n'avez probablement pas d'exemple d'inondation de 1000 ans dans les données. La bonne chose est que vous n'avez pas besoin de beaucoup de données pour obtenir un bon résultat.

Voici comment obtenir de meilleurs résultats avec moins de données:
Si vous regardez les maxima annuels, vous pouvez ajuster la "distribution de valeurs extrêmes" aux 200 valeurs de niveaux-année maximum et vous aurez la distribution qui contient l'inondation de 1000 ans -niveau. Ce sera l'algèbre, pas le véritable "quelle est sa taille". Vous pouvez utiliser l'équation pour déterminer l'ampleur de l'inondation de 1000 ans. Puis, compte tenu de ce volume d'eau - vous pouvez construire votre pont pour y résister. Ne tirez pas pour la valeur exacte, tirez pour plus gros, sinon vous le concevez pour échouer lors du déluge de 1000 ans. Si vous êtes audacieux, vous pouvez utiliser le rééchantillonnage pour déterminer à quel point au-delà de la valeur exacte de 1000 ans, vous devez le construire pour le faire résister.

Voici pourquoi EV / GEV sont les formes analytiques pertinentes:
La distribution généralisée des valeurs extrêmes concerne la variation du max. La variation du maximum se comporte vraiment différemment de la variation de la moyenne. La distribution normale, via le théorème de la limite centrale, décrit beaucoup de "tendances centrales".

Procédure:

effectuez les 1000 opérations suivantes:
i. choisir 1000 nombres dans la distribution normale standard
ii. calculer le maximum de ce groupe d'échantillons et le stocker

tracer maintenant la distribution du résultat

#libraries
library(ggplot2)

#parameters and pre-declarations
nrolls <- 1000
ntimes <- 10000
store <- vector(length=ntimes)

#main loop
for (i in 1:ntimes){

     #get samples
     y <- rnorm(nrolls,mean=0,sd=1)

     #store max
     store[i] <- max(y)
}

#plot
ggplot(data=data.frame(store), aes(store)) + 
     geom_histogram(aes(y = ..density..),
                    col="red", 
                    fill="green", 
                    alpha = .2) + 
     geom_density(col=2) + 
     labs(title="Histogram for Max") +
     labs(x="Max", y="Count")

Ce n'est PAS la "distribution normale standard": entrez la description de l'image ici

Le pic est à 3,2 mais le maximum monte vers 5,0. Il a un biais. Il n'est pas inférieur à environ 2,5. Si vous aviez des données réelles (la normale standard) et que vous choisissez juste la queue, alors vous choisissez uniformément au hasard quelque chose le long de cette courbe. Si vous avez de la chance, vous êtes vers le centre et non vers la queue inférieure. L'ingénierie est à l'opposé de la chance - il s'agit d'obtenir systématiquement les résultats souhaités à chaque fois. « Les nombres aléatoires sont beaucoup trop importants pour être laissés au hasard » (voir référence), en particulier pour un ingénieur. La famille de fonctions analytiques qui correspond le mieux à ces données - la famille de valeurs extrêmes des distributions.

Exemple d'ajustement:
Disons que nous avons 200 valeurs aléatoires du maximum de l'année à partir de la distribution normale standard, et nous allons prétendre que ce sont nos 200 ans d'histoire des niveaux d'eau maximum (quoi que cela signifie). Pour obtenir la distribution, nous procédons comme suit:

Exemple de la variable "store" (pour créer du code court / facile)
s'adapter à une distribution de valeur extrême généralisée
trouver la moyenne de la distribution
utilisez le bootstrap pour trouver la limite supérieure de l'IC à 95% dans la variation de la moyenne, afin que nous puissions cibler notre ingénierie pour cela.

(le code suppose que ce qui précède a été exécuté en premier)

library(SpatialExtremes) #if it isn't here install it, it is the ev library
y2 <- sample(store,size=200,replace=FALSE)  #this is our data

myfit <- gevmle(y2)

Cela donne des résultats:

> gevmle(y2)    
       loc      scale      shape     
 3.0965530  0.2957722 -0.1139021

Ceux-ci peuvent être connectés à la fonction de génération pour créer 20 000 échantillons

y3 <- rgev(20000,loc=myfit[1],scale=myfit[2],shape=myfit[3])

La construction de ce qui suit donnera 50/50 chances d'échec chaque année:

moyenne (y3)
3,23681

Voici le code pour déterminer quel est le niveau de «crue» de 1000 ans:

p1000 <- qgev(1-(1/1000),loc=myfit[1],scale=myfit[2],shape=myfit[3])
p1000

La construction de ce qui suit devrait vous donner 50/50 chances d'échouer lors de l'inondation de 1000 ans.

p1000
4.510931

Pour déterminer l'IC supérieur à 95%, j'ai utilisé le code suivant:

myloc <- 3.0965530
myscale <- 0.2957722
myshape <- -0.1139021

N <- 1000
m <- 200
p_1000 <- vector(length=N)
yd <- vector(length=m)

for (i in 1:N){

      #generate samples
    yd <- rgev(m,loc=myloc,scale=myscale,shape=myshape)

    #compute fit
    fit_d <- gevmle(yd)

    #compute quantile
    p_1000[i] <- qgev(1-(1/1000),loc=fit_d[1],scale=fit_d[2],shape=fit_d[3])

}

mytarget <- quantile(p_1000,probs=0.95)

Le résultat a été:

> mytarget
     95% 
4.812148

Cela signifie que pour résister à la grande majorité des inondations de 1000 ans, étant donné que vos données sont d'une propreté impeccable (peu probable), vous devez construire pour le ...

> out <- pgev(4.812148,loc=fit_d[1],scale=fit_d[2],shape=fit_d[3])
> 1/(1-out)

ou la

> 1/(1-out)
   shape 
1077.829

... Inondation de 1078 ans.

Bottom lines:

vous avez un échantillon des données, pas la population totale réelle. Cela signifie que vos quantiles sont des estimations et pourraient être hors tension.
Des distributions telles que la distribution généralisée des valeurs extrêmes sont conçues pour utiliser les échantillons afin de déterminer les queues réelles. Ils sont beaucoup moins mal à estimer que d'utiliser les valeurs d'échantillon, même si vous n'avez pas assez d'échantillons pour l'approche classique.
Si vous êtes robuste, le plafond est haut, mais le résultat est - vous n'échouez pas.

Bonne chance

PS:

$1 / (1 - 0,985) \approx 67$ $1/(1-0.985) \approx 67$
Compte tenu du point précédent, en moyenne tous les 67 ans, les civils devraient avoir à reconstruire. Donc, au coût total de l'ingénierie et de la construction tous les 67 ans, compte tenu de la durée de vie opérationnelle de la structure civile (je ne sais pas ce que c'est), à un moment donné, il pourrait être moins coûteux de concevoir pour une période inter-tempête plus longue. Une infrastructure civile durable est conçue pour durer au moins une vie humaine sans défaillance, non?

PS: plus amusant - une vidéo youtube (pas la mienne)
https://www.youtube.com/watch?v=EACkiMRT0pc

Footnote: Coveyou, Robert R. "La génération de nombres aléatoires est trop importante pour être laissée au hasard." Probabilité appliquée et méthodes de Monte Carlo et aspects modernes de la dynamique. Études en mathématiques appliquées 3 (1969): 70-111.

— EngrStudent - Réintégrer Monica
source

2

Je ne suis peut-être pas assez clair. Ma principale préoccupation est de savoir pourquoi utiliser extreme value distributionplutôt que the overall distributiond'ajuster les données et obtenir les valeurs de 98,5%.

— cqcn1991

Qu'entendez-vous par population globale?

— kjetil b halvorsen

1

mis à jour la réponse.

— EngrStudent

2

@EngrStudent excellente réponse, mais il serait encore mieux si vous montriez comment EVT fonctionne ici mieux que d'utiliser la distribution normale en plus de fournir une illustration.

— Tim

2

Après avoir effectué quelques travaux de modélisation, je dirais que l'utilisation de la distribution parent est tout simplement dangereuse, car les données sont très peu nombreuses et l'extrapolation est juste dangereuse et instable, pour la modélisation d'événements extrêmes. Et c'est ainsi que nous devrions utiliser la théorie EV à la place.

— cqcn1991

7

Vous utilisez la théorie des valeurs extrêmes pour extrapoler à partir des données observées. Souvent, les données dont vous disposez ne sont tout simplement pas assez importantes pour vous fournir une estimation sensible d'une probabilité de queue. Prenons l'exemple de @ EngrStudent d'un événement sur 1 an: cela correspond à trouver le quantile à 99,9% d'une distribution. Mais si vous ne disposez que de 200 ans de données, vous ne pouvez calculer que des estimations quantiles empiriques jusqu'à 99,5%.

La théorie des valeurs extrêmes vous permet d'estimer le quantile de 99,9%, en faisant diverses hypothèses sur la forme de votre distribution dans la queue: qu'elle est lisse, qu'elle se désintègre avec un certain motif, etc.

Vous pensez peut-être que la différence entre 99,5% et 99,9% est mineure; ce n'est que 0,4% après tout. Mais c'est une différence de probabilité , et lorsque vous êtes dans la queue, cela peut se traduire par une énorme différence de quantiles . Voici une illustration de ce à quoi cela ressemble pour une distribution gamma, qui n'a pas une queue très longue au fur et à mesure. La ligne bleue correspond au quantile à 99,5% et la ligne rouge au quantile à 99,9%. Alors que la différence entre ceux-ci est minime sur l'axe vertical, la séparation sur l'axe horizontal est substantielle. La séparation ne devient plus importante que pour les distributions véritablement à longue queue; le gamma est en fait un cas assez inoffensif.

entrez la description de l'image ici

— Hong Ooi
source

Votre réponse est incorrecte. Le point à 99,9% d'un décès normal annuel ne correspond pas à un événement de 1 an sur 1000. Le maximum de 1000 normales a une distribution différente. Je pense que cela est abordé dans d'autres réponses.

— Mark L. Stone

@ MarkL.Stone Nulle part je n'ai parlé du maximum de 1000 normales.

— Hong Ooi

1

C'est exactement mon point. Le 1 dans un événement de 1000 ans doit être basé sur le maximum de 1000 normaux annuels. C'est très différent du point de 99,9 $ sur une normale annuelle. Voir mon commentaire sur la réponse de Karel Macek ci-dessous.

— Mark L. Stone du

@ MarkL.Stone Le but du graphique est juste de montrer que lorsque vous êtes dans la queue, de petits changements de probabilités correspondent à de grands changements de quantiles. Vous pouvez remplacer le quantile à 99% d'un GEV, ou d'un GPD, ou de toute autre distribution. (Et je n'ai même pas mentionné la distribution normale.)

— Hong Ooi

De plus, l'estimation des maxima via le GEV n'est qu'une façon d'obtenir des quantiles de queue. L'autre façon est d'estimer les quantiles directement via le GPD (en supposant une distribution à queue lourde).

— Hong Ooi

7

Si vous n'êtes intéressé que par une queue, il est logique que vous concentriez vos efforts de collecte et d'analyse de données sur la queue. Cela devrait être plus efficace. J'ai mis l'accent sur la collecte de données car cet aspect est souvent ignoré lors de la présentation d'un argument pour les distributions EVT. En fait, il pourrait être impossible de collecter les données pertinentes pour estimer ce que vous appelez une distribution globale dans certains domaines. J'expliquerai plus en détail ci-dessous.

Si vous regardez une inondation de 1 an sur 1000 comme dans l'exemple de @ EngrStudent, alors pour construire le corps de la distribution normale, vous avez besoin de beaucoup de données pour le remplir d'observations. Vous avez potentiellement besoin de toutes les inondations qui se sont produites au cours des dernières centaines d'années.

Maintenant, arrêtez-vous une seconde et pensez à ce qu'est exactement une inondation? Quand ma cour est inondée après une forte pluie, est-ce une inondation? Probablement pas, mais où est exactement la ligne qui délimite une inondation d'un événement qui n'est pas une inondation? Cette simple question met en évidence le problème de la collecte de données. Comment pouvez-vous vous assurer que nous collectons toutes les données sur le corps en suivant la même norme pendant des décennies, voire des siècles? Il est pratiquement impossible de collecter les données sur le corps de la répartition des inondations.

Par conséquent, ce n'est pas seulement une question d' efficacité de l' analyse , mais une question de faisabilité de la collecte de données : que ce soit pour modéliser la distribution entière ou juste une queue?

Naturellement, avec Tails, la collecte de données est beaucoup plus facile. Si nous définissons le seuil suffisamment élevé pour ce qui est une énorme inondation , alors nous pouvons avoir une plus grande chance que tous ou presque tous ces événements soient probablement enregistrés d'une manière ou d'une autre. Il est difficile de manquer une inondation dévastatrice, et s'il y a une sorte de civilisation présente, il y aura un souvenir de l'événement. Il est donc judicieux de construire des outils analytiques qui se concentrent spécifiquement sur les queues étant donné que la collecte de données est beaucoup plus robuste sur les événements extrêmes plutôt que sur les événements non extrêmes dans de nombreux domaines tels que les études de fiabilité.

— Aksakal
source

+1 Points intéressants et convaincants, en particulier dans les remarques à la fin.

— whuber

(+1) En lien avec votre dernier point (mémoire préservée), l' effet Sadler peut être intéressant.

— GeoMatt22

@ GeoMatt22, c'est la première fois que je vois le papier et le terme d'effet Sadler. Merci pour le lien

— Aksakal

C'est vraiment un excellent point. C'est un système, donc une approche systémique peut avoir un excellent rendement. La meilleure analyse au monde peut être empoisonnée avec des données indésirables. Une analyse assez simple, lorsqu'elle est alimentée par de bonnes données, peut avoir d'excellents résultats. Bons points!

— EngrStudent

6

Habituellement, la distribution des données sous-jacentes (par exemple, les vitesses du vent gaussien) est pour un seul point d'échantillonnage. Le 98e centile vous dira que pour tout point sélectionné au hasard, il y a 2% de chances que la valeur soit supérieure au 98e centile.

Je ne suis pas ingénieur civil, mais j'imagine que ce que vous voudriez savoir n'est pas la probabilité que la vitesse du vent un jour donné soit supérieure à un certain nombre, mais la répartition des rafales les plus importantes possibles, disons, au cours de l'année. Dans ce cas, si les maximums de rafales de vent quotidiens sont, disons, distribués de façon exponentielle, alors ce que vous voulez, c'est la distribution des rafales de vent maximales sur 365 jours ... c'est ce que la distribution de valeurs extrêmes était censée résoudre.

1

L'utilisation du quantile rend le calcul plus simple. Les ingénieurs civils peuvent substituer la valeur (vitesse du vent, par exemple) dans leurs formules de premier principe et ils obtiennent le comportement du système pour ces conditions extrêmes qui correspondent au quantile de 98,5%.

L'utilisation de l'ensemble de la distribution pourrait sembler fournir plus d'informations, mais compliquerait les calculs. Cependant, il pourrait permettre l'utilisation d'approches avancées de gestion des risques qui équilibreraient de manière optimale les coûts liés (i) à la construction et (ii) au risque de défaillance.

— Karel Macek
source

Eh bien ... je ne suis peut-être pas assez clairement. Je veux juste savoir pourquoi utiliser la théorie des valeurs extrêmes plutôt que la distribution générale (la distribution entière?) Que nous utilisons normalement?

— cqcn1991

1

Si la fonction de distribution cumulative pour une seule instanciation, telle que la vitesse maximale quotidienne du vent, est F (x), alors la fonction de distribution cumulative pour le maximum de n instanciations indépendantes (par exemple, n = 365 pour un an avec une vitesse quotidienne maximale du vent ) est F ^ n (x). Ceci est différent de F (x).

— Mark L. Stone