Quel est le modèle approprié pour les données de comptage sous-dispersées?


24

J'essaie de modéliser les données de comptage dans R qui sont apparemment sous-dispersées (paramètre de dispersion ~ 0,40). C'est probablement pourquoi un modèle binomial ( ) glmavec family = poissonou négatif glm.nbn'est pas significatif. Quand je regarde les descriptions de mes données, je n'ai pas le biais typique des données de comptage et les résidus dans mes deux conditions expérimentales sont également homogènes.

Mes questions sont donc:

  1. Dois-je même utiliser des analyses de régression spéciales pour mes données de comptage, si mes données de comptage ne se comportent pas vraiment comme des données de comptage? Je suis parfois confronté à la non-normalité (généralement en raison de la kurtosis), mais j'ai utilisé la méthode du centile bootstrap pour comparer les moyennes ajustées (Wilcox, 2012) pour tenir compte de la non-normalité. Les méthodes de comptage peuvent-elles être remplacées par une méthode robuste suggérée par Wilcox et réalisée dans le package WRS?

  2. Si je dois utiliser des analyses de régression pour les données de dénombrement, comment puis-je tenir compte de la sous-dispersion? Le Poisson et la distribution binomiale négative supposent une dispersion plus élevée, donc cela ne devrait pas être approprié, non? Je pensais à appliquer la distribution quasi-Poisson , mais c'est généralement recommandé pour la sur-dispersion. J'ai lu sur les modèles bêta-binomiaux qui semblent être en mesure de tenir compte de la sur- et de la sous-dispersion sont disponibles dans le VGAMpackage de R. Les auteurs semblent cependant recommander une distribution de Poisson tildée , mais je ne la trouve pas dans le package .

Quelqu'un peut-il recommander une procédure pour les données sous-dispersées et peut-être fournir un exemple de code R pour cela?


1
Comment savez-vous que vos données sont sous-dispersées? Comment calculez-vous le paramètre de dispersion?
Hong Ooi

1
Il serait également utile de nous en dire plus sur ce qui vous intéresse. Pour les estimations ponctuelles des prédicteurs linéaires et la prédiction des valeurs, la sous-dispersion est rarement un problème, mais les tests et les intervalles peuvent être inutilement conservateurs (des quasi-familles aideraient à cela). Cela dit, pour une approche de vraisemblance «normale», consultez le COM Poisson et d'autres modèles de Poisson généralisés.
Momo

@ Hung Ooi: J'ai testé la dispersion avec dispersiontest (Poissonmodel, alternative = c ("less")) et le test s'est avéré significatif.
Sil

1
@ Momo: Je veux tester si la négociation des dyades dans deux conditions expérimentales diffère dans les offres correctes qu'elles font. Les offres correctes signifient que les dyades revendiquent plus de problèmes qui correspondent aux intérêts respectifs de leurs équipes au lieu de revendiquer des problèmes plus valorisants pour l'autre partie. Tout d'abord, je n'étais même pas au courant que ce sont des données de comptage. Voulez-vous dire la distribution de Conway-Maxwell-Poisson par COM Poisson? Merci beaucoup déjà!
Sil

3
Merci pour l'information supplémentaire. Oui, je voulais dire le poisson conway-maxwell. Shmueli & co a développé un modèle linéaire généralisé kindbof pour cela, il existe également un package R si vous souhaitez essayer.
Momo

Réponses:


9

La meilleure façon --- et standard de gérer les données de Poisson sous-dispersées est d'utiliser un Poisson généralisé, ou peut-être un modèle d'obstacle. Trois modèles de comptage de paramètres peuvent également être utilisés pour les données sous-dispersées; par exemple Faddy-Smith, Waring, Famoye, Conway-Maxwell et d'autres modèles de comptage généralisés. Le seul inconvénient de ces derniers est l'interprétabilité. Mais pour les données générales sous-dispersées, le Poisson généralisé doit être utilisé. C'est comme un binôme négatif pour les données sur-dispersées. J'en discute en détail dans deux de mes livres, Modeling Count Data (2014) et Negative Binomial Regression, 2nd edition, (2011) tous deux par Cambridge University Press. Dans R, le package VGAM permet une régression généralisée de Poisson (GP). Les valeurs négatives du paramètre de dispersion indiquent un ajustement pour la sous-dispersion. Vous pouvez également utiliser le modèle GP pour les données sur-dispersées, mais généralement le modèle NB est meilleur. En fin de compte, il est préférable de déterminer la cause de la sous-dispersion, puis de sélectionner le modèle le plus approprié pour y faire face.


Nous saluons le retour! Veuillez enregistrer et / ou fusionner vos comptes (vous pouvez trouver des informations sur la façon de procéder dans la section Mon compte de notre centre d'aide ), vous pourrez alors modifier et commenter votre propre question. (Votre compte d'origine est ici .)
gung - Réinstallez Monica

Pouvez-vous effectuer une analyse de Poisson généralisée sur SPSS?
Grace Carroll

3

J'ai rencontré un Poisson sous-dispersé une fois qui avait à voir avec la fréquence à laquelle les gens joueraient à un jeu social. Il s'est avéré que cela était dû à l'extrême régularité avec laquelle les gens jouaient le vendredi. La suppression des données du vendredi m'a donné le Poisson surdispersé attendu. Vous avez peut-être la possibilité de modifier de la même manière vos données.


1

Il existe des situations où la sous-dispersion se confond avec une inflation zéro, ce qui est typique du nombre d'enfants préférés par les individus des deux sexes. Je n'ai pas trouvé de moyen de capturer cela à ce jour

En utilisant notre site, vous reconnaissez avoir lu et compris notre politique liée aux cookies et notre politique de confidentialité.
Licensed under cc by-sa 3.0 with attribution required.