Passer de la modélisation d'un processus à l'aide d'une distribution de Poisson pour utiliser une distribution binomiale négative?


24

Nous avons un processus aléatoire qui peut ou mai ne pas se produire plusieurs fois dans une période de temps définie . Nous avons un flux de données à partir d'un modèle préexistant de ce processus, qui fournit la probabilité qu'un certain nombre d'événements se produisent dans la période . Ce modèle existant est ancien et nous devons effectuer des vérifications en direct sur les données d'alimentation pour les erreurs d'estimation. L'ancien modèle produisant le flux de données (qui fournit la probabilité que événements se produisent dans le restant ) est approximativement distribué par Poisson.T0t<Tnt

Donc, pour vérifier les anomalies / erreurs, nous laissons t le temps restant et Xt le nombre total d'événements à se produire dans le temps restant t . L'ancien modèle implique les estimations P(Xtc) . Donc, selon notre hypothèse XtPoisson(λt) nous avons:

P(Xtc)=e-λk=0cλtkk!.
Pour dériver notre taux d'événements λt de la sortie de l'ancien modèle (observations yt ), nous utilisons une approche de l'espace d'états et modélisons la relation d'état comme:
yt=λt+εt(εtN(0,Ht)).
Nous filtrons les observations de l'ancien modèle, en utilisant un modèle d'espace d'état [décroissance à vitesse constante] pour l'évolution du λt afin d'obtenir l'état filtré E(λt|Ouit) et signalons une anomalie / erreur dans la fréquence d'événements estimée à partir de les données d'alimentation si E(λt|Ouit)<yt .

Cette approche fonctionne parfaitement bien pour détecter les erreurs dans le nombre d'événements estimés sur la période T complète T, mais pas si bien si nous voulons faire de même pour une autre période 0t<σσ<23T . Pour contourner cela, nous avons décidé que nous voulons maintenant passer à l'utilisation de la distribution binomiale négative afin que nous supposions maintenant X_t \ sim NB (r, p)XtNB(r,p) et nous avons:

P(Xtc)=prk=0c(1p)k(k+r1r1),
où le paramètre λ est maintenant remplacé par r et p. Cela devrait être simple à mettre en œuvre, mais j'ai des difficultés d'interprétation et j'ai donc quelques questions que j'aimerais que vous aidiez:

1. Pouvons-nous simplement mettre p=λ dans la distribution binomiale négative? Sinon, pourquoi pas?

2. En supposant que nous pouvons définir p=F(λ)F est une fonction, comment pouvons-nous correctement définir r (devons-nous ajuster r utilisant les anciens ensembles de données)?

3. Est-ce que r dépend du nombre d'événements que nous prévoyons de se produire au cours d'un processus donné?


Addendum à l'extraction des estimations pour r (et p ):

Je sais que si nous avions en fait inversé ce problème et que nous avions le nombre d'événements pour chaque processus, nous pourrions adopter l'estimateur du maximum de vraisemblance pour et . Bien sûr, l'estimateur du maximum de vraisemblance n'existe que pour les échantillons pour lesquels la variance de l'échantillon est supérieure à la moyenne de l'échantillon, mais si tel était le cas, nous pourrions définir la fonction de vraisemblance pour observations indépendantes identiquement distribuées as: partir duquel nous pouvons écrire la fonction log-vraisemblance comme: p N k 1 , k 2 , , k N L ( r , p ) = N i = 1 P ( k i ; r , p ) , l ( r , p ) = N i = 1 ln ( Γ ( k i + r ) ) - N =rpNk1,k2,,kN

L(r,p)=je=1NP(kje;r,p),
l(r,p)=je=1Nln(Γ(kje+r))-je=1Nln(kje!)-Nln(Γ(r))+je=1Nkjeln(p)+Nrln(1-p).
Pour trouver le maximum, nous prenons les dérivées partielles par rapport à et et les mettons égales à zéro: Réglage et réglage on trouve: rp
rl(r,p)=je=1Nψ(kje+r)-Nψ(r)+Nln(1-p),pl(r,p)=je=1Nkje1p-Nr11-p.
rl(r,p)=pl(r,p)=0p=je=1Nkje(Nr+je=1Nkje),
rl(r,p)=je=1Nψ(kje+r)-Nψ(r)+Nln(rr+je=1NkjeN)=0.
Cette équation ne peut pas être résolue pour r sous forme fermée en utilisant Newton ou même EM. Cependant, ce n'est pas le cas dans cette situation. Bien que nous puissions utiliser les données passées pour obtenir un et un statiques , ce n'est pas vraiment une utilité comme pour notre processus, nous devons adapter ces paramètres dans le temps, comme nous l'avons fait avec Poisson. rp

1
Pourquoi ne pas simplement brancher vos données dans un modèle de régression de Poisson ou binomial négatif?
StatsStudent

1
Je ne pense pas qu'il devrait avoir à utiliser. En gardant à l'esprit que Poisson est le cas limite du binôme négatif, il devrait y avoir un moyen de paramétrer ce problème de la même manière que je l'ai fait pour Poisson. De plus, ce processus se produit simultanément pour des milliers de processus de différence et aucun n'a le même "taux d'événements", ce qui signifie qu'une analyse de régression pour ces paramètres devrait être effectuée à chaque nouvelle observation pour tous les processus en direct. Ce n'est pas faisable. Merci beaucoup d'avoir pris le temps de lire ma question et mon commentaire, c'est très apprécié ...
MoonKnight

1
En termes de liaison de poisson à NB, si vous avez avec une variable de dispersion cachée sorte que et . Cela donnera une distribution NB marginale lors de l'intégration de . Vous pouvez l'utiliser pour vous aider. (Xt|λt,rt,gt)Pojes(λtgt)(gt|rt)gunemmune(rt,rt)E(gt)=1vuner(gt)=rt-1gt
probabilités

C'est une grande aide, mais pouvez-vous étoffer cela un peu plus et fournir des détails explicites? Merci beaucoup pour votre temps ...
MoonKnight

1
Qu'en est-il de l'utilisation du binôme plutôt que du binôme négatif? Cela peut être plus facile à faire. Anscombe FJ. La transformation des données de Poisson, binomiales et binomiales négatives. Biometrika. 1948; 35: 246-54.
Carl

Réponses:


1

La distribution binomiale négative est très similaire au modèle de probabilité binomiale. il est applicable lorsque les hypothèses (conditions) suivantes sont valables 1) Toute expérience est réalisée dans les mêmes conditions jusqu'à ce qu'un nombre fixe de succès, disons C, soit atteint 2) Le résultat de chaque expérience peut être classé dans l'une des deux catégories , succès ou échec 3) La probabilité P de succès est la même pour chaque expérience 40 Chaque expérience est indépendante de toutes les autres. La première condition est le seul facteur de différenciation clé entre binôme et binôme négatif


0

La distribution de poisson peut être une approximation raisonnable du binôme dans certaines conditions comme 1) La probabilité de succès pour chaque essai est très faible. P -> 0 2) np = m (disons) est finete La règle la plus souvent utilisée par les statisticiens est que le poisson est une bonne approximation du binôme lorsque n est égal ou supérieur à 20 et p est égal ou inférieur à 5 %

En utilisant notre site, vous reconnaissez avoir lu et compris notre politique liée aux cookies et notre politique de confidentialité.
Licensed under cc by-sa 3.0 with attribution required.