Comment prévoir des événements rares?

Je travaille sur le développement d'un modèle prédictif des risques d'assurance. Ces modèles sont des «événements rares» comme la prévision de non-présentation des compagnies aériennes, la détection de pannes matérielles, etc. Pendant que je préparais mon ensemble de données, j'essayais d'appliquer la classification, mais je n'ai pas pu obtenir de classificateurs utiles en raison de la forte proportion de cas négatifs .

Je n'ai pas beaucoup d'expérience en statistiques et en modélisation de données au-delà d'un cours de statistiques au secondaire, donc je suis un peu confus.

À première vue, j'ai pensé à utiliser un modèle de processus de Poisson inhomogène. Je l'ai classé en fonction des données d'événement (date, lat, lon) pour obtenir une bonne estimation de la probabilité d'un risque à un moment donné, un jour particulier, à un endroit particulier.

J'aimerais savoir quelles sont les méthodologies / algorithmes pour prédire les événements rares?
Que recommandez-vous comme approche pour résoudre ce problème?

— user3378649
source

L'approche standard est la " théorie des valeurs extrêmes ", il y a un excellent livre sur le sujet par Stuart Coles (bien que le prix actuel semble plutôt, euh ... extrême).

La raison pour laquelle il est peu probable que vous obteniez de bons résultats en utilisant des méthodes de classification ou de régression est que ces méthodes dépendent généralement de la prévision de la moyenne conditionnelle des données, et les événements extrêmes sont généralement causés par la conjonction de facteurs "aléatoires" alignés tous dans la même direction, ils sont donc dans la queue de la distribution des résultats plausibles, qui sont généralement loin de la moyenne conditionnelle. Ce que vous pouvez faire est de prédire la distribution conditionnelle dans son ensemble, plutôt que juste sa moyenne, et d'obtenir des informations sur la probabilité d'un événement extrême en intégrant la queue de la distribution au-dessus d'un certain seuil. J'ai trouvé que cela fonctionnait bien dans une application sur la réduction d'échelle statistique des fortes précipitations .

— Dikran Marsupial
source

Y a-t-il une implémentation de cette théorie sur python?

— user3378649

Désolé, je ne programme pas (encore) en Python donc je ne peux pas y aider.

— Dikran Marsupial

y

$y$

x_{1}, \dots, x_{n}

$x_1,\dots, x_n$

y > Y_{0}

$y>Y_0$

P (y > Y_{0} | x_{1}, \dots, x_{n})

$P(y>Y_0|x_1,\dots,x_n)$

E (y | x_{1}, \dots, x_{n})

$E(y|x_1,\dots,x_n)$

y > Y_{0}

$y>Y_0$

P (y > Y_{0} | x 1, \dots, x_{n})

$P(y>Y_0|x1,\dots,x_n)$

Oui, vous pouvez le faire, mais la fonction de coût que vous minimisez ne vise pas à obtenir les bonnes queues de la distribution, donc si c'est ce qui vous intéresse, il vaut mieux essayer de modéliser les événements dans les queues plus explicitement .

— Dikran Marsupial