R in Action (Kabacoff, 2011) suggère la routine suivante pour tester la surdispersion dans une régression logistique:
Ajuster la régression logistique en utilisant la distribution binomiale:
model_binom <- glm(Species=="versicolor" ~ Sepal.Width,
family=binomial(), data=iris)
Ajuster la régression logistique en utilisant la distribution quasibinomiale:
model_overdispersed <- glm(Species=="versicolor" ~ Sepal.Width,
family=quasibinomial(), data=iris)
Utilisez le chi carré pour tester la surdispersion:
pchisq(summary(model_overdispersed)$dispersion * model_binom$df.residual,
model_binom$df.residual, lower = F)
# [1] 0.7949171
Quelqu'un pourrait-il expliquer comment et pourquoi la distribution du chi carré est utilisée pour tester la surdispersion ici? La valeur de p est de 0,79 - comment cela montre-t-il que la surdispersion n'est pas un problème dans le modèle de distribution binomiale?