Nous avons un processus aléatoire qui peut ou mai ne pas se produire plusieurs fois dans une période de temps définie . Nous avons un flux de données à partir d'un modèle préexistant de ce processus, qui fournit la probabilité qu'un certain nombre d'événements se produisent dans la période . Ce modèle existant est ancien et nous devons effectuer des vérifications en direct sur les données d'alimentation pour les erreurs d'estimation. L'ancien modèle produisant le flux de données (qui fournit la probabilité que événements se produisent dans le restant ) est approximativement distribué par Poisson.
Donc, pour vérifier les anomalies / erreurs, nous laissons le temps restant et le nombre total d'événements à se produire dans le temps restant . L'ancien modèle implique les estimations . Donc, selon notre hypothèse nous avons:
Cette approche fonctionne parfaitement bien pour détecter les erreurs dans le nombre d'événements estimés sur la période T complète , mais pas si bien si nous voulons faire de même pour une autre période où . Pour contourner cela, nous avons décidé que nous voulons maintenant passer à l'utilisation de la distribution binomiale négative afin que nous supposions maintenant X_t \ sim NB (r, p) et nous avons:
1. Pouvons-nous simplement mettre dans la distribution binomiale négative? Sinon, pourquoi pas?
2. En supposant que nous pouvons définir où est une fonction, comment pouvons-nous correctement définir (devons-nous ajuster utilisant les anciens ensembles de données)?
3. Est-ce que dépend du nombre d'événements que nous prévoyons de se produire au cours d'un processus donné?
Addendum à l'extraction des estimations pour (et ):
Je sais que si nous avions en fait inversé ce problème et que nous avions le nombre d'événements pour chaque processus, nous pourrions adopter l'estimateur du maximum de vraisemblance pour et . Bien sûr, l'estimateur du maximum de vraisemblance n'existe que pour les échantillons pour lesquels la variance de l'échantillon est supérieure à la moyenne de l'échantillon, mais si tel était le cas, nous pourrions définir la fonction de vraisemblance pour observations indépendantes identiquement distribuées as: partir duquel nous pouvons écrire la fonction log-vraisemblance comme: p N k 1 , k 2 , … , k N L ( r , p ) = N ∏ i = 1 P ( k i ; r , p ) , l ( r , p ) = N ∑ i = 1 ln ( Γ ( k i + r ) ) - N ∑ =