Pourquoi la régression de Poisson est-elle utilisée pour les données de comptage?


33

Je comprends que pour certains ensembles de données tels que le vote, les performances sont meilleures. Pourquoi la régression de Poisson est-elle utilisée par rapport à la régression linéaire ordinaire ou à la régression logistique? Quelle est la motivation mathématique pour cela?


Voir ma réponse à cet article pour un autre point de vue: stats.stackexchange.com/questions/142338/…
kjetil b halvorsen le

Réponses:


51

Les données distribuées de Poisson ont une valeur intrinsèque, ce qui est logique pour les données de comptage. Les moindres carrés ordinaires (OLS, que vous appelez «régression linéaire») supposent que les valeurs vraies sont normalement réparties autour de la valeur attendue et peuvent prendre toute valeur réelle, positive ou négative, entière ou fractionnelle, peu importe. Enfin, la régression logistique ne fonctionne que pour les données à valeur 0-1 (valeur TRUE-FALSE), comme "a une maladie" ou "n'a pas la maladie". Ainsi, la distribution de Poisson est la plus logique pour les données de comptage.

Cela dit, une distribution normale est souvent une assez bonne approximation de celle de Poisson pour les données dont la moyenne est supérieure à 30 ou plus. Et dans un cadre de régression où des prédicteurs influent sur le nombre, une MLS avec sa distribution normale peut être plus facile à adapter et serait en réalité plus générale, car la distribution de Poisson et la régression supposent que la moyenne et la variance sont égales, tandis que peut traiter des moyennes et des variances inégales - pour un modèle de données de comptage avec des moyennes et des variances différentes, on pourrait utiliser une distribution binomiale négative , par exemple.


17
Notez que juste adapter en utilisant OlS ne nécessite pas de normalité - c'est lorsque vous faites l'inférence sur les paramètres que vous avez besoin de l'assomption de distribution normale
Dason

1
@Dason: Je suis corrigé.
S. Kolassa - Réintégrer Monica le

3
Si vous utilisez l'estimateur de variance Huber / White / Sandwich, vous pouvez assouplir l'hypothèse de variance moyenne
Dimitriy V. Masterov

@Dason Bien que ce ne soit pas strictement nécessaire, utiliser la bonne forme de modèle pour ce que vous ajustez donne presque toujours une meilleure estimation, et vous pouvez le voir dans des tracés de résidus.
Joe

24

Essentiellement, c'est parce que les régressions linéaire et logistique font des hypothèses erronées sur ce que sont les résultats de comptage. Imaginez votre modèle comme un robot très stupide qui suivra vos ordres sans relâche, peu importe leur absurdité; il manque complètement la capacité d'évaluer ce que vous dites. Si vous dites à votre robot que quelque chose comme les votes est distribué continuellement d'infini négatif à infini, c'est ce qu'il pense être comme des votes, et cela pourrait vous donner des prédictions insensées (Ross Perot recevra -10,469 voix lors des prochaines élections).

Inversement, la distribution de Poisson est discrète et positive (ou zéro ... zéro compte comme positif, oui?). Au minimum, cela forcera votre robot à vous donner des réponses qui pourraient réellement se produire dans la vie réelle. Celles-ci peuvent être ou ne pas être de bonnes réponses, mais elles seront au moins tirées de l'ensemble possible du "nombre de suffrages exprimés".

Bien entendu, le Poisson a ses propres problèmes: il suppose que la moyenne de la variable de nombre de votes sera également la même que sa variance. Je ne sais pas si j'ai déjà vu un exemple non artificiel où c'était vrai. Heureusement, les gens brillants ont mis au point d'autres distributions positives et discrètes, mais qui ajoutent des paramètres permettant à la variance de varier (par exemple, la régression binomiale négative).


5

T=1λT=tλ.tλ.t

p(N=n)=(λ.t)ne-λ.tn!

Grâce à cela et à la méthode du maximum de vraisemblance et aux modèles linéaires généralisés (ou à une autre méthode), vous obtenez la régression de Poisson .

En termes simples, la régression de Poisson est le modèle qui correspond aux hypothèses du processus aléatoire sous-jacent générant un petit nombre d'événements à un taux (c'est-à-dire le nombre par unité de temps) déterminé par d'autres variables du modèle.


3

D'autres ont essentiellement dit la même chose que moi mais je pensais ajouter mon point de vue. Cela dépend de ce que vous faites exactement, mais souvent, nous aimons conceptualiser le problème / les données à traiter. C'est une approche légèrement différente par rapport à la construction d'un modèle qui prédit assez bien. Si nous essayons de conceptualiser ce qui se passe, il est logique de modéliser les données de comptage en utilisant une distribution non négative qui ne met que la masse à des valeurs entières. Nous avons également de nombreux résultats qui se résument essentiellement à dire que, dans certaines conditions, le nombre de données est réellementdistribué comme un poisson. Donc, si notre objectif est de conceptualiser le problème, il est vraiment judicieux d’utiliser un poisson comme variable de réponse. D'autres ont souligné d'autres raisons pour lesquelles c'est une bonne idée, mais si vous essayez vraiment de conceptualiser le problème et de bien comprendre comment les données que vous voyez peuvent être générées, alors l'utilisation d'une régression de poisson est très utile dans certaines situations.


2

Ma compréhension est principalement due au fait que les comptes sont toujours positifs et discrets, le Poisson peut résumer ces données avec un paramètre. Le principal problème est que la variance est égale à la moyenne.

En utilisant notre site, vous reconnaissez avoir lu et compris notre politique liée aux cookies et notre politique de confidentialité.
Licensed under cc by-sa 3.0 with attribution required.