Je vais essayer une réponse, même si je ne suis pas complètement clair sur la situation. Les formules devront être adaptées! Le problème de l'estimation de dans la distribution binomiale est ancien et il existe plusieurs articles pertinents. Je donnerai quelques références à la fin. N
Soit régions (dans l'exemple OP ), avec échantillons (d'intervalles de temps disjoints d'égale longueur) de chaque région. Les variables observées sont qui sont des variables aléatoires binomiales indépendantes, chacune avec la distribution toutes deux inconnues. La fonction log-vraisemblance devient
Notez que, dans le problème habituel lorsque est connu de sorte que seul est inconnu, alors la somme (ou la moyenne) du binôme compteRR=2TxitBin(Ni,p)ℓ(Ni,p)=∑ln(Nixit)+lnp⋅∑xit+ln(1−p)⋅∑(Ni−xit)
Nipxitest un résumé suffisant, donc l'analyse peut être faite en termes de distribution binomiale de la somme. Dans notre problème, cependant, en raison du premier terme de la fonction log-vraisemblance, ce n'est pas le cas, et la log-vraisemblance dépend de chacun des comptes individuellement! Donc, ce que vous proposez, pour réduire à la somme des chiffres (sur ), NE DEVRAIT PAS ÊTRE FAIT, car cela perdra des informations (combien, je ne sais pas, mais cela peut être étudié ...). Essayons de mieux comprendre cela. Tout d'abord, nous voyons ci-dessous que est un estimateur cohérent deimaxt(xit)Ni, mais cet estimateur cohérent n'est pas fonction des comptes sommés. C'est une indication claire que la sommation perd des informations! Notez également que la moyenne est un estimateur non biaisé de son espérance qui est , mais ne semble pas contenir d'informations sur et individuellement, quand on ne sait rien de l'autre paramètre. Cela indique que s'il existe des informations utiles sur dans la fonction de vraisemblance, celles-ci doivent être contenues dans la répartition des valeursNipNipNixi1…,xiT, indiquant à nouveau que la sommation est mauvaise. L'article d'Olkin et al référencé ci-dessous montre en effet que l'estimateur de la méthode des moments est dans bien des cas meilleur que la vraisemblance maximale! et qui utilise la variance empirique des , donc n'a pas pu être calculée à partir des données sommées.xi1…,xiT
Ce problème est connu pour être instable. Essayons de comprendre pourquoi. Dans le problème habituel, en estimant lorsque connu, l'estimation peut être effectuée à partir d'une caractéristique brute des données, la moyenne. Lorsque nous essayons d'estimer à la fois et , nous utilisons des propriétés beaucoup plus fines de la fonction log-vraisemblance (donc des données). Pour voir pourquoi, rappelons que l'on peut obtenir la distribution de Poisson comme limite du binôme lorsque va à zéro et croît sans bornes, avec un produit positif constant. Donc, si est petit etpNiNippNpNgrande, la distribution binomiale sera assez proche de cette limite. Prenons deux cas: (A) , (B) . Dessinez des histogrammes pour les deux distributions (binomiales):N=100,p=0.01N=20,p=0.05
> zapsmall(cbind(0:20,pA,pB))
pA pB
[1,] 0 0.366032 0.358486
[2,] 1 0.369730 0.377354
[3,] 2 0.184865 0.188677
[4,] 3 0.060999 0.059582
[5,] 4 0.014942 0.013328
[6,] 5 0.002898 0.002245
[7,] 6 0.000463 0.000295
[8,] 7 0.000063 0.000031
[9,] 8 0.000007 0.000003
[10,] 9 0.000001 0.000000
[11,] 10 0.000000 0.000000
[12,] 11 0.000000 0.000000
[13,] 12 0.000000 0.000000
[14,] 13 0.000000 0.000000
[15,] 14 0.000000 0.000000
[16,] 15 0.000000 0.000000
[17,] 16 0.000000 0.000000
[18,] 17 0.000000 0.000000
[19,] 18 0.000000 0.000000
[20,] 19 0.000000 0.000000
[21,] 20 0.000000 0.000000
Ci-dessus un tableau de ces probabilités. Pour détecter à partir des données observées laquelle de ces deux distributions on a, c'est ce qu'il faut pour décider, dans ce cas, si ou si . C'est évidemment assez difficile, et l'instabilité des estimateurs résultants est à prévoir. Cet exemple indique également que l'instabilité concerne principalement les petits . Vous dites que vous attendez autour de 0,7, donc le problème pourrait être plus stable alors. Vous pouvez étudier cela pour vos données en trouvant l'estimateur du maximum de vraisemblance en fonction d'un connu et en traçant celui deN=100N=20ppppdans un certain intervalle de confiance. Ou vous pourriez aller plein Bayes, c'est un cas où même des informations préalables plutôt vagues pourraient être utiles.
Les paramètres sont en effet estimables. Il est clair que , il est donc possible d'utiliser ce nombre maximum comme estimateur de . Cet estimateur sera fortement cohérent et un paramètre avec un estimateur cohérent doit être estimable. Mais, comme le montre l'exemple ci-dessus, l'estimabilité est presque une formalité; en pratique, les distributions avec très différents sont très proches, donc est très faiblement estimable.Ni≥maxt(xit)NNN
Je ne vais pas donner de détails sur les méthodes d'estimation ici, mais donner quelques références que vous pouvez consulter:
Ingram Olkin, A John Petkau, James V Zidek: une comparaison de N estimateurs pour la distribution binomiale. JASA 1981. Il s'agit d'un article classique qui développe et analyse des estimateurs de ML et de moment, et quelques variantes de stabilisateur. Cela montre également, de manière intéressante, que dans de nombreux cas l'estimateur de la méthode des moments est meilleur que l'estimateur ML!
Raymond J Carrol et F Lombard: Une note sur N estimateurs pour la distribution binomiale. JASA 1985.
Développe un estimateur alternatif, plus stable et peut-être meilleur, basé sur l'intégration de hors de la vraisemblance. Note également le manque de suffisance des comptes sommés.p
J Andrew Royle: N_Mixture Models for Estimating Population Size from Spatially Replicated Counts. Biometrics, 2004. Cela donne une autre approche bayésienne alternative que vous pouvez essayer.
Revenons à votre question concrète. Vous NE DEVEZ PAS additionner les chiffres sur vos deux régions! Cela perdra des informations. Si vous introduisez alors la fonction log-vraisemblance peut être écrite en fonction de , et (ou ). Ensuite, le paramètre supplémentaire doit être éliminé par une procédure. J'y reviendrai, mais non il n'y a pas de temps! N=N1+N2NpN1N2N1