Méthodes d'ajustement des distributions discrètes
Il existe trois méthodes principales * utilisées pour ajuster (estimer les paramètres des) distributions discrètes.
Ceci trouve les valeurs des paramètres qui donnent les meilleures chances de fournir votre échantillon (compte tenu des autres hypothèses, comme l'indépendance, les paramètres constants, etc.)
Cela trouve les valeurs des paramètres qui font que les premiers moments de la population correspondent à vos moments d'échantillonnage. C'est souvent assez facile à faire et, dans de nombreux cas, donne des estimateurs assez raisonnables. Il est également parfois utilisé pour fournir des valeurs de départ aux routines ML.
Cela minimise la qualité du khi carré de la statistique d'ajustement sur la distribution discrète, bien que parfois avec des ensembles de données plus importants, les catégories finales puissent être combinées pour plus de commodité. Il fonctionne souvent assez bien, et il a même sans doute certains avantages sur le ML dans des situations particulières, mais généralement il doit être réitéré à la convergence, auquel cas la plupart des gens ont tendance à préférer le ML.
Les deux premières méthodes sont également utilisées pour les distributions continues; le troisième n'est généralement pas utilisé dans ce cas.
Ceux-ci ne constituent en aucun cas une liste exhaustive, et il serait tout à fait possible d'estimer des paramètres en minimisant la statistique KS par exemple - et même (si vous vous ajustez pour la discrétion), d'en obtenir une région de consonance commune , si vous étiez si incliné. Puisque vous travaillez en R, l'estimation ML est assez facile à réaliser pour le binôme négatif. Si votre échantillon était x
dedans, c'est aussi simple que library(MASS);fitdistr (x,"negative binomial")
:
> library(MASS)
> x <- rnegbin(100,7,3)
> fitdistr (x,"negative binomial")
size mu
3.6200839 6.3701156
(0.8033929) (0.4192836)
Ce sont les estimations des paramètres et leurs erreurs standard (asymptotiques).
Dans le cas de la distribution de Poisson, MLE et MoM estiment tous deux le paramètre de Poisson à la moyenne de l'échantillon.
Si vous souhaitez voir des exemples, vous devez publier quelques chiffres réels. Notez que votre histogramme a été fait avec des bacs choisis afin que les catégories 0 et 1 soient combinées et nous n'avons pas les décomptes bruts.
Autant que je puisse deviner, vos données sont à peu près les suivantes:
Count: 0&1 2 3 4 5 6 >6
Frequency: 311 197 74 15 3 1 0
Mais les grands nombres seront incertains (cela dépend fortement de la précision avec laquelle les décomptes bas sont représentés par les décomptes de pixels de leurs hauteurs de barre) et il pourrait s'agir de plusieurs de ces nombres, comme le double de ces nombres (les décomptes bruts affectent les erreurs standard, il importe donc qu'elles concernent ces valeurs ou deux fois plus grandes)
La combinaison des deux premiers groupes le rend un peu gênant (c'est possible, mais moins simple si vous combinez certaines catégories. Beaucoup d'informations sont dans ces deux premiers groupes, il est donc préférable de ne pas laisser l'histogramme par défaut les regrouper ).
* D'autres méthodes d'ajustement de distributions discrètes sont bien sûr possibles (on peut faire correspondre des quantiles ou minimiser d'autres statistiques d'ajustement par exemple). Celles que je mentionne semblent être les plus courantes.