En modélisant les données du nombre de sinistres dans un environnement d'assurance, j'ai commencé avec Poisson mais j'ai ensuite remarqué une surdispersion. Un Quasi-Poisson modélisait mieux la relation moyenne-variance plus élevée que le Poisson de base, mais j'ai remarqué que les coefficients étaient identiques dans les modèles de Poisson et de Quasi-Poisson.
Si ce n'est pas une erreur, pourquoi cela se produit-il? Quel est l'avantage d'utiliser Quasi-Poisson par rapport à Poisson?
A noter:
- Les pertes sous-jacentes sont sur une base excessive, ce qui (je crois) a empêché le Tweedie de fonctionner - mais c'était la première distribution que j'ai essayée. J'ai également examiné les modèles NB, ZIP, ZINB et Hurdle, mais j'ai quand même trouvé que le Quasi-Poisson offrait le meilleur ajustement.
- J'ai testé la surdispersion via dispersiontest dans le package AER. Mon paramètre de dispersion était d'environ 8,4, avec une valeur de p à la magnitude 10 ^ -16.
- J'utilise glm () avec family = poisson ou quasipoisson et un lien de log pour le code.
- Lors de l'exécution du code de Poisson, je sors avec des avertissements de "In dpois (y, mu, log = TRUE): non entier x = ...".
Fils SE utiles selon les conseils de Ben:
counts/exposure
. Vous devez plutôt ajouter un offset(log(exposure))
terme offset ( ) à vos modèles.