La distribution «par défaut», la plus couramment utilisée et décrite, de choix pour les données de dénombrement est la distribution de Poisson . Le plus souvent, il est illustré à l'aide d'un exemple de sa première utilisation pratique:
Une application pratique de cette distribution a été faite par Ladislaus Bortkiewicz en 1898 quand il a été chargé d'enquêter sur le nombre de soldats de l'armée prussienne tués accidentellement par des coups de cheval; cette expérience a introduit la distribution de Poisson dans le domaine de l'ingénierie de la fiabilité.
La distribution de Poisson est paramétrée par le taux par intervalle de temps fixe ( est aussi sa moyenne et sa variance). En cas de régression, nous pouvons utiliser la distribution de Poisson dans un modèle linéaire généralisé avec une fonction de lien log-linéaireλλλ
E( Y| X, β) = λ = exp( β0+ β1X1+ ⋯ + βkXk)
c'est ce qu'on appelle la régression de Poisson , car nous pouvons supposer que est un taux de distribution de Poisson. Notez cependant que pour la régression log-linéaire, vous n'avez pas à faire une telle hypothèse et utilisez simplement GLM avec un lien de journal avec des données non comptées. Lorsque vous interprétez les paramètres, vous devez vous rappeler que, en raison de l'utilisation de la transformation logarithmique, les changements de variable indépendante entraînent des changements multiplicatifs dans les nombres prédits.λ
Le problème avec l'utilisation de la distribution de Poisson pour les données réelles est qu'elle suppose que la moyenne est égale à la variance. La violation de cette hypothèse est appelée surdispersion . Dans de tels cas, vous pouvez toujours utiliser un modèle quasi-Poisson, un modèle log-linéaire non Poisson (pour les grands nombres, Poisson peut être approximé par une distribution normale), une régression binomiale négative (étroitement liée à Poisson; voir Berk et MacDonald, 2008), ou d'autres modèles, comme décrit par Stephan Kolassa .
Pour une introduction amicale à la régression de Poisson, vous pouvez également consulter les articles de Lavery (2010) ou Coxe, West et Aiken (2009).
Lavery, R. (2010). Un guide animé: une introduction à la régression de Poisson. Papier NESUG, sa04.
Coxe, S., West, SG et Aiken, LS (2009). L'analyse des données de dénombrement: une introduction en douceur à la régression de Poisson et à ses alternatives. Journal d'évaluation de la personnalité, 91 (2), 121-136.
Berk, R. et MacDonald, JM (2008). Surdispersion et régression de Poisson. Journal of Quantitative Criminology, 24 (3), 269-284.