Je travaille sur le développement d'un modèle prédictif des risques d'assurance. Ces modèles sont des «événements rares» comme la prévision de non-présentation des compagnies aériennes, la détection de pannes matérielles, etc. Pendant que je préparais mon ensemble de données, j'essayais d'appliquer la classification, mais je n'ai pas pu obtenir de classificateurs utiles en raison de la forte proportion de cas négatifs .
Je n'ai pas beaucoup d'expérience en statistiques et en modélisation de données au-delà d'un cours de statistiques au secondaire, donc je suis un peu confus.
À première vue, j'ai pensé à utiliser un modèle de processus de Poisson inhomogène. Je l'ai classé en fonction des données d'événement (date, lat, lon) pour obtenir une bonne estimation de la probabilité d'un risque à un moment donné, un jour particulier, à un endroit particulier.
J'aimerais savoir quelles sont les méthodologies / algorithmes pour prédire les événements rares?
Que recommandez-vous comme approche pour résoudre ce problème?