Surdispersion et sous-dispersion en régression binomiale / Poisson négative


11

J'effectuais une régression de Poisson en SAS et j'ai découvert que la valeur du chi carré de Pearson divisée par les degrés de liberté était d'environ 5, indiquant une surdispersion significative. J'ai donc ajusté un modèle binomial négatif avec proc genmod et j'ai trouvé que la valeur du chi carré Pearson divisée par les degrés de liberté était de 0,80. Est-ce maintenant considéré comme sous-dispersé? Si oui, comment procéder pour gérer cela? J'ai beaucoup lu sur la surdispersion et je crois savoir comment gérer cela, mais les informations sur la façon de gérer ou de déterminer s'il y a une sous-dispersion sont rares. Quelqu'un peut-il aider?

Merci.


Réponses:


17

Pour une distribution de Poisson avec une moyenne la variance est également . Dans le cadre des modèles linéaires généralisés, cela implique que la fonction de variance est pour le modèle de Poisson. Cette hypothèse de modèle peut être erronée pour de nombreuses raisons différentes. Les données de comptage surdispersées avec une variance plus grande que ce que la distribution de Poisson dicte, par exemple, sont souvent rencontrées. μ V ( μ ) = μμμ

V(μ)=μ

Les écarts par rapport à l'hypothèse de variance peuvent, dans un contexte de régression, prendre plusieurs formes. La plus simple est que la fonction de variance est égale à avec un paramètre de dispersion . Il s'agit du modèle quasi-Poisson. Il donnera le même modèle de régression ajusté, mais l'inférence statistique ( valeurs et intervalles de confiance) est ajustée pour la sur ou sous-dispersion en utilisant un paramètre de dispersion estimé.ψ > 0 p

V(μ)=ψμ
ψ>0p

La forme fonctionnelle de la fonction de variance peut également être fausse. Ce pourrait être un polynôme du second degré disons. Les exemples incluent le binôme, le binôme négatif et le modèle gamma. Le choix de l'un de ces modèles comme alternative au modèle de Poisson affectera le modèle de régression ajusté ainsi que l'inférence statistique subséquente. Pour la distribution binomiale négative avec le paramètre de forme la fonction de variance est Nous pouvons voir à partir de cela que si nous obtenons la fonction de variance pour la distribution de Poisson.λ > 0 V ( μ ) = μ ( 1 + μ

V(μ)=aμ2+bμ+c,
λ>0λ
V(μ)=μ(1+μλ).
λ

Pour déterminer si la fonction de variance pour le modèle de Poisson est appropriée pour les données, nous pouvons estimer le paramètre de dispersion comme le suggère l'OP et vérifier s'il est d'environ 1 (peut-être en utilisant un test formel). Un tel test ne suggère pas d'alternative spécifique, mais il est plus clairement compris dans le modèle quasi-Poisson. Pour tester si la forme fonctionnelle de la fonction de variance est appropriée, nous pourrions construire un test de rapport de vraisemblance du modèle de Poisson ( ) contre le modèle binomial négatif ( ). Notez qu'il a une distribution non standard sous l'hypothèse nulle. Ou nous pourrions utiliser des méthodes basées sur AIC en général pour comparer des modèles non imbriqués. Tests de surdispersion basés sur la régression dans le modèle de Poissonλ < λ=λ< explore une classe de tests pour les fonctions de variance générales.

Cependant, je recommanderais tout d'abord d'étudier les graphiques résiduels, par exemple un graphique des résidus de Pearson ou de déviance (ou leur valeur au carré) par rapport aux valeurs ajustées. Si la forme fonctionnelle de la variance est incorrecte, vous verrez cela comme une forme d'entonnoir (ou une tendance pour les résidus au carré) dans le tracé résiduel. Si la forme fonctionnelle est correcte, c'est-à-dire sans entonnoir ni tendance, il pourrait toujours y avoir une sur ou sous-dispersion, mais cela peut être expliqué en estimant le paramètre de dispersion. L'avantage du tracé résiduel est qu'il suggère plus clairement qu'un test ce qui ne va pas avec la fonction de variance, le cas échéant.

Dans le cas concret du PO, il n'est pas possible de dire si 0,8 indique une sous-dispersion des informations données. Au lieu de se concentrer sur les estimations de 5 et 0,8, je suggère d'abord d'étudier l'ajustement des fonctions de variance du modèle de Poisson et du modèle binomial négatif. Une fois que la forme fonctionnelle la plus appropriée de la fonction de variance est déterminée, un paramètre de dispersion peut être inclus, si nécessaire, dans l'un ou l'autre modèle pour ajuster l'inférence statistique pour toute sur ou sous-dispersion supplémentaire. Comment faire cela facilement dans SAS, par exemple, n'est malheureusement pas quelque chose que je peux aider.


2
+1, c'est une bonne information générale. Il pourrait être plus utile pour le PO si vous répondiez spécifiquement aux questions explicites du PO: (1) est .8 sous-dispersé; & (2) si oui, comment gérer cela.
gung - Rétablir Monica

@gung, j'ai édité la réponse pour donner des conseils plus spécifiques. Vous ne pouvez pas déterminer si 0,8 est significativement plus petit que 1 à partir des informations disponibles, et à mon humble avis, se concentrer sur le fait que le paramètre de dispersion est 1 est un détournement. Mon montage explique ce que je pense que l'OP devrait se concentrer à la place.
NRH
En utilisant notre site, vous reconnaissez avoir lu et compris notre politique liée aux cookies et notre politique de confidentialité.
Licensed under cc by-sa 3.0 with attribution required.