Utiliser la régression du poisson pour des données continues?


11

La distribution de poisson peut-elle être utilisée pour analyser des données continues ainsi que des données discrètes?

J'ai quelques ensembles de données où les variables de réponse sont continues, mais ressemblent à une distribution de poisson plutôt qu'à une distribution normale. Cependant, la distribution de poisson est une distribution discrète et concerne généralement les nombres ou les dénombrements.


En quoi vos distributions empiriques diffèrent-elles des variables gamma, alors?
whuber

1
J'ai utilisé la distribution gamma pour ces données. Si vous utilisez la distribution gamma avec un lien de journal, vous obtenez presque exactement le même résultat que vous obtenez d'un modèle de poisson sur-dispersé.Cependant, dans la plupart des progiciels statistiques que je connais, la régression du poisson est plus simple et beaucoup plus flexible.
user3136

N'y aurait-il pas d'autres distributions qui sont meilleures, par exemple la suggestion de whuber de gamma?
Peter Flom - Réintègre Monica

1
@PeterFlom - Je me demande si ce problème survient souvent car le paquet glmnet dans R ne prend pas en charge la famille Gamma ou la famille gaussienne avec une fonction de liaison de journal. Cependant, parce que glmnet est utilisé comme un package de modélisation prédictive (les utilisateurs ne sont donc intéressés que par les coefficients du modèle, pas par les erreurs de coeff. Stnd) et puisque le dbn de Poisson produit un coeff cohérent. estimations pour les modèles de la forme ln [E (y)] = beta0 + beta * X avec des réponses continues quelle que soit la distribution, je suppose que les auteurs de glmnet n'ont pas pris la peine d'inclure ces familles supplémentaires.
RobertF

Réponses:


12

L'hypothèse clé d'un modèle linéaire généralisé pertinent ici est la relation entre la variance et la moyenne de la réponse, compte tenu des valeurs des prédicteurs. Lorsque vous spécifiez une distribution de Poisson, cela implique que vous supposez que la variance conditionnelle est égale à la moyenne conditionnelle. * La forme réelle de la distribution n'a pas autant d'importance: il peut s'agir de Poisson ou gamma ou normal, ou toute autre chose aussi longtemps que cette relation moyenne-variance tient.

* Vous pouvez assouplir l'hypothèse que la variance est égale à la moyenne de l'un de la proportionnalité, et toujours obtenir de bons résultats.


9

Si vous parlez d'utiliser une réponse de Poisson dans un modèle linéaire généralisé, alors oui, si vous êtes prêt à faire l'hypothèse que la variance de chaque observation est égale à sa moyenne.

Si vous ne voulez pas faire cela, une autre alternative peut être de transformer la réponse (par exemple, prendre des journaux).


Je pense que, en plus de votre argument, même si @ user3136 n'est pas disposé à faire l'hypothèse de moyenne = variance, il / elle peut utiliser la quasipoissonfamille dans glm.
suncoolsu

2
Mais mon problème est pourquoi voudriez-vous transformer des données continues en données discrètes. Il perd essentiellement des informations. Aussi, lorsqu'une simple logtransformation aurait fonctionné, pourquoi discrétiser vos données? Utilisation de glmtravaux, mais chaque résultat est basé sur des asymptotiques (qui peuvent ou non tenir le coup)
suncoolsu

@suncoolsu: 1) quasipoisson rend l'hypothèse de moyenne proportionnelle à la variance. 2) Je ne voulais pas transformer en discret, je voulais dire transformer (maintenir la continuité) afin que vous puissiez utiliser un modèle différent.
Simon Byrne

ouais - j'ai compris d'accord avec toi. Désolé, je parlais de la question. Quasi-poisson, prend en compte le surdosage non? (si je me souviens bien, cf Faraway 2006)
suncoolsu

Dans ce cas particulier, je n'étais pas convaincu que toute transformation que j'essayais (log, sqrt, box-cox) donnait une bonne approximation de la normalité. Soit dit en passant, si j'utilise la méthode de transformation de score normale, je peux transformer la plupart des données en une normalité presque magnifique, mais je n'ai pas vu cette transformation largement utilisée, donc je suppose qu'il y a un problème (il est difficile de retransformer).
user3136
En utilisant notre site, vous reconnaissez avoir lu et compris notre politique liée aux cookies et notre politique de confidentialité.
Licensed under cc by-sa 3.0 with attribution required.