Modélisation d'une distribution de Poisson avec surdispersion

15

J'ai un ensemble de données que je m'attendrais à suivre une distribution de Poisson, mais il est sur-dispersé d'environ 3 fois. À l'heure actuelle, je modélise cette overdispersion en utilisant quelque chose comme le code suivant dans R.

## assuming a median value of 1500
med = 1500
rawdist = rpois(1000000,med)
oDdist = rawDist + ((rawDist-med)*3)

Visuellement, cela semble très bien correspondre à mes données empiriques. Si je suis satisfait de l'ajustement, y a-t-il une raison pour laquelle je devrais faire quelque chose de plus complexe, comme utiliser une distribution binomiale négative, comme décrit ici ? (Si c'est le cas, des pointeurs ou des liens sur ce sujet seraient très appréciés).

Oh, et je suis conscient que cela crée une distribution légèrement dentelée (en raison de la multiplication par trois), mais cela ne devrait pas avoir d'importance pour mon application.

Mise à jour: Pour le bien de toute autre personne qui recherche et trouve cette question, voici une fonction R simple pour modéliser un poisson sur-dispersé en utilisant une distribution binomiale négative. Réglez d sur le rapport moyen / variance souhaité:

rpois.od<-function (n, lambda,d=1) {
  if (d==1)
    rpois(n, lambda)
  else
     rnbinom(n, size=(lambda/(d-1)), mu=lambda)
}

(via la liste de diffusion R: https://stat.ethz.ch/pipermail/r-help/2002-June/022425.html )

— chrisamiller
source

11

pour les poissons surdispersés, utilisez le binôme négatif, qui vous permet de paramétrer précisément la variance en fonction de la moyenne. rnbinom (), etc. dans R.

— Cyrus S
source

1

Pourquoi un binôme négatif et non un modèle mixte avec un effet aléatoire au niveau de l'observation? Ce n'est pas une question rhétorique. Ceci est un "je ne comprends pas lequel je dois préférer." question. De plus, que faire si j'ai une situation de mesures répétées? Lorsque mes données sont continues, j'utiliserai un modèle mixte linéaire généralisé. La distribution gamma fonctionne souvent bien avec des données biologiques continues, et le modèle mixte gère l'élément de mesures répétées. Mais que faire si l'on a des données de comptage de mesures répétées sur-dispersées?

— Bryan

L'une des raisons pour lesquelles le modèle binomial négatif reparamétré est populaire avec les données de poisson sur-dispersées est b / c il modélise la variance en fonction de la moyenne (comme dans le poisson) avec un paramètre de sur-dispersion pour modéliser la variance "supplémentaire". Voir page 487 ici pour une formule rapide: worldscientific.com/doi/pdf/10.1142/9789813235533_0044 et la page wikipedia pour une explication sur la reparamétrisation: en.wikipedia.org/wiki/Negative_binomial_distribution

— Samir Rachid Zaim

4

Si votre valeur moyenne pour le Poisson est de 1500, alors vous êtes très proche d'une distribution normale; vous pouvez essayer de l'utiliser comme approximation, puis modéliser la moyenne et la variance séparément.

— Riches
source

Ce n'est qu'un exemple - il pourrait avoir une médiane beaucoup plus petite, de l'ordre de 200 (cela dépend de la façon dont je partitionne les données). Cela empêcherait d'utiliser une distribution normale, non?

— chrisamiller

1

L'approximation normale de la distribution de Poisson est assez robuste, la différence entre les CDF est limitée par quelque chose comme 0,75 / sqrt (lambda), si je me souviens bien. Je ne serais pas trop inquiet à propos de l'utilisation de lambda = 200, mais si vous êtes plus opposé au risque, alors allez-y avec le binôme négatif.

— Rich