Surdispersion et alternatives de modélisation dans les modèles à effet aléatoire de Poisson avec décalages

J'ai rencontré un certain nombre de questions pratiques lors de la modélisation des données de comptage issues de la recherche expérimentale à l'aide d'une expérience intra-sujet. Je décris brièvement l'expérience, les données et ce que j'ai fait jusqu'à présent, suivi de mes questions.

Quatre films différents ont été montrés en séquence à un échantillon de répondants. Après chaque film, une interview a été menée, dont nous avons compté le nombre d'occurrences de certaines déclarations qui étaient d'intérêt pour le QR (variable de comptage prédite). Nous avons également enregistré le nombre maximum d'occurrences possibles (unités de codage; variable de décalage). De plus, plusieurs caractéristiques des films ont été mesurées sur une échelle continue, dont l'une a une hypothèse causale d'un effet de la caractéristique du film sur le nombre de déclarations tandis que les autres sont contrôlées (prédicteurs).

La stratégie de modélisation adoptée jusqu'à présent est la suivante:

Estimer un modèle de Poisson à effet aléatoire, où la variable causale est utilisée comme covariable et les autres variables comme covariables de contrôle. Ce modèle a un décalage égal à «log (unités)» (unités de codage). Des effets aléatoires sont pris sur tous les sujets (les décomptes spécifiques aux films sont imbriqués dans les sujets). Nous trouvons l'hypothèse causale confirmée (coefficient sig. De la variable causale). Pour l'estimation, nous avons utilisé le paquet lme4 dans R, en particulier la fonction glmer.

J'ai maintenant les questions suivantes. Un problème courant dans la régression de Poisson est la surdispersion. Je sais que cela peut être testé en utilisant une régression binomiale négative et en évaluant si son paramètre de dispersion améliore l'ajustement du modèle d'un modèle de Poisson simple. Cependant, je ne sais pas comment le faire dans un contexte d'effet aléatoire.

Comment dois-je tester la surdispersion dans ma situation? J'ai testé la surdispersion dans une simple régression binomiale Poisson / négative (sans effets aléatoires) que je sais ajuster. Le test suggère la présence d'une surdispersion. Cependant, étant donné que ces modèles ne prennent pas en compte le clustering, je suppose que ce test est incorrect. De plus, je ne suis pas sûr du rôle du décalage pour les tests de surdispersion.
Existe-t-il quelque chose comme un modèle de régression à effet aléatoire binomial négatif et comment dois-je l'adapter à R?
Avez-vous des suggestions de modèles alternatifs que je devrais essayer sur les données, c'est-à-dire en tenant compte de la structure des mesures répétées, des variables de comptage et de l'exposition (unités de codage)?

— tomka
source

pour commencer, consultez la section " overdispersion

— Ben Bolker

Merci, très utile! Peut-être que quelqu'un veut compiler une réponse à partir de cela et d'autres informations.

— Tomka

Il existe un nombre maximum de réponses comptées, en fonction du nombre de questions posées. Bien que l'on puisse modéliser cela comme un processus de Poisson de type comptage, une autre interprétation est qu'un processus de Poisson n'a pas de limite théorique pour le nombre de réponses comptées, c'est-à-dire qu'il est sur . Une autre distribution, c'est-à-dire une distribution discrète qui a un support fini , par exemple le binôme bêta , pourrait être plus appropriée car elle a une forme plus mutable. Cependant, ce n'est qu'une supposition et, dans la pratique, je chercherais une réponse à une question plus générale en utilisant la force brute ... $[0,\infty)$

Plutôt que de rechercher une surdispersion , qui n'a aucune garantie de conduire à une réponse utile, et, bien que l'on puisse examiner les indices de dispersion pour quantifier la dispersion, je suggérerais plus utilement de rechercher une meilleure distribution en utilisant une option de distribution discrète d'une recherche de qualité d'ajustement par exemple, la routine FindDistribution de Mathematica . Ce type de recherche permet de deviner quelle (s) distribution (s) connue (s) fonctionne le mieux non seulement pour atténuer la surdispersion, mais aussi pour modéliser plus utilement de nombreuses autres caractéristiques de données, par exemple, la qualité de l'ajustement telle que mesurée une douzaine différentes façons.

Pour examiner plus en détail mes distributions candidates, je post-hoc examinerais les résidus pour vérifier l'homoscédasticité et / ou le type de distribution, et également examiner si les distributions candidates peuvent être rapprochées comme correspondant à une explication physique des données. Le danger de cette procédure est d'identifier une distribution qui n'est pas cohérente avec la meilleure modélisation d'un ensemble de données étendu. Le danger de ne pas effectuer de procédure post hoc est d' affecter a priori une distribution choisie arbitrairement sans test approprié (garbage in-garbage out). La supériorité du post hocL'approche est qu'elle limite les erreurs d'ajustement, et c'est aussi sa faiblesse, c'est-à-dire qu'elle peut sous-estimer les erreurs de modélisation par pur hasard lorsque de nombreuses distributions d'ajustement sont tentées. C'est donc la raison pour laquelle nous examinons les résidus et considérons la physicalité. L' approche descendante ou a priori n'offre pas un tel contrôle a posteriori du caractère raisonnable. C'est-à-dire que la seule méthode pour comparer la physicalité de la modélisation avec différentes distributions est de les comparer post hoc . Ainsi naît la nature de la théorie physique, nous testons une explication hypothétique des données avec de nombreuses expériences avant de les accepter comme des explications alternatives épuisantes.

— Carl
source