Choix d'alternatives à la régression de Poisson pour les données de comptage sur-dispersées

J'analyse actuellement les données d'une série d'expériences comportementales qui utilisent toutes la mesure suivante. Les participants à cette expérience sont invités à sélectionner des indices que d'autres personnes (fictives) pourraient utiliser pour résoudre une série de 10 anagrammes. Les participants sont amenés à croire que ces autres personnes gagneront ou perdront de l'argent, selon leur performance dans la résolution des anagrammes. Les indices varient quant à leur utilité. Par exemple, pour l'anagramme NUNGRIN, une anagramme de RUNNING, trois indices pourraient être:

Se déplacer rapidement (inutile)
Ce que vous faites dans une course de marathon (utile)
Pas toujours un passe-temps sain (inutile)

Pour former la mesure, je compte le nombre de fois (sur 10) qu'un participant choisit un indice inutile pour l'autre personne. Dans les expériences, j'utilise une variété de manipulations différentes pour affecter l'utilité des indices que les gens sélectionnent.

Étant donné que la mesure de l'utilité / de l'inutilité est assez fortement biaisée positivement (une grande proportion de personnes choisissent toujours les 10 indices les plus utiles), et parce que la mesure est une variable de comptage, j'ai utilisé un modèle linéaire généralisé de Poisson pour analyser ces données. Cependant, quand j'ai fait un peu plus de lecture sur la régression de Poisson, j'ai découvert que parce que la régression de Poisson n'évalue pas indépendamment la moyenne et la variance d'une distribution, elle sous-estime souvent la variance dans un ensemble de données. J'ai commencé à rechercher des alternatives à la régression de Poisson, telles que la régression quasipoisson ou la régression binomiale négative. Cependant, j'avoue que je suis plutôt nouveau dans ce genre de modèles, alors je viens ici pour des conseils.

Quelqu'un a-t-il des recommandations sur le modèle à utiliser pour ce type de données? Y a-t-il d'autres considérations dont je devrais être conscient (par exemple, un modèle particulier est-il plus puissant qu'un autre?)? Quel type de diagnostic dois-je examiner pour déterminer si le modèle que je sélectionne gère correctement mes données?

poisson-distribution count-data

— Patrick S. Forscher
source

Qu'en est-il d'un estimateur de variance / covariance robuste pour assouplir l'hypothèse que la variance est égale à la moyenne?

— Boscovich

Puisqu'il s'agit de données de comptage et non négatives, qu'en est-il du quassi-poisson ou d'un modèle de régression binomiale négative, qui explique la dispersion?

— Arun

J'ai pensé à utiliser un modèle binomial quasi-poisson ou négatif, mais ce que je ne comprends pas, c'est le type de diagonistique à considérer pour m'assurer que je modélise mes données de manière appropriée. Puisqu'il existe plusieurs alternatives (modèles quasi-poisson, binôme négatif et "zéro augmenté"), je me demande également s'il existe un bon moyen de choisir entre ces alternatives. Par exemple, une méthode est-elle généralement plus puissante que les autres?

— Patrick S.Forscher

Cela dépend des données. Pourquoi ne pas les adapter tous à vos données (Poisson, binôme négatif, Poisson gonflé à zéro et binôme négatif, modèles d'obstacles pour ceux en question) et les comparer via, disons, AIC ou BIC? Voir cran.r-project.org/web/packages/pscl/vignettes/countreg.pdf Ensuite, choisissez celui qui convient le mieux à vos données. Vous pouvez également utiliser des modèles de quasi-vraisemblance, mais c'est une question de goût, je ne les aime pas tellement.

— Momo

Pour vérifier quelle distribution pourrait être un bon modèle pour votre réponse, vous pouvez utiliser la fonction vcd :: distplot.

— Momo

Réponses:

Votre résultat est le nombre d'indices utiles sur 10, qui est une variable aléatoire binomiale. Vous devez donc l'analyser avec une sorte de régression binomiale, probablement quasi-binomiale pour permettre une surdispersion. Notez que le Poisson et les distributions binomiales négativement nommées de manière trompeuse conviennent aux données de comptage non bornées.

— Aniko
source

J'ai mentionné le binôme négatif parce que c'est une alternative surdispersée au Poisson que le poseur a suggéré initialement. Puisque chaque répondant a x / 10 indices, il pourrait être binomial mais pour chacun des 10 indices, il y a une probabilité pi fixe pour le ième répondant et les occurrences sont indépendantes. Ce n'est peut-être pas le cas.

— Michael R. Chernick

le bêta-binôme est une autre possibilité (le bêta-binôme est au binôme comme le binôme négatif est à Poisson). betabindans le aodpackage le fera.

— Ben Bolker

Je recommanderais moi aussi de regarder le binôme négatif si les résultats possibles étaient infinis comme pour le Poisson. Vous voudrez peut-être consulter l'un des livres de Joe Hilbe. Il en a un sur GEE et un sur la régression binomiale négative qu'il contraste avec la régression de Poisson. Mais comme l'a souligné Aniko, il n'y a que 10 indices, donc chaque répondant ne peut avoir que 0, 1, 2, 3, ..., 10 et donc ni Poisson ni exponentielle négative ne sont appropriés.

— Michael R. Chernick
source

Bon point par @Aniko. Un autre choix est la régression bêta. Il y avait un article intitulé "A Better Lemon Squeezer" qui donnait beaucoup d'informations sur cette méthode.

— Peter Flom - Réintégrer Monica
source

Mais la bêta serait utilisée pour modéliser une proportion et non une variable de comptage sur un ensemble fini d'entiers.

— Michael R. Chernick

Il a des utilisations plus larges, @MichaelChernick, voir l'article, qui est assez bon.

— Peter Flom - Réintègre Monica

@PeterFlom Il ne peut pas non plus gérer les données sur l'intervalle [0,1], seulement (0,1).

— colin