Quand utiliser les GLM binomiaux Poisson vs géométrique vs négatif pour les données de comptage?

J'essaie de me présenter quand il convient d'utiliser quel type de régression (géométrique, Poisson, binôme négatif) avec les données de comptage, dans le cadre GLM (seules 3 des 8 distributions GLM sont utilisées pour les données de comptage, bien que la plupart de ce que J'ai lu des centres autour des distributions binomiales et de Poisson négatives).

Quand utiliser les GLM binomiaux Poisson vs géométrique vs négatif pour les données de comptage?

Jusqu'à présent, j'ai la logique suivante: s'agit-il de compter les données? Si oui, la moyenne et la variance sont-elles inégales? Si oui, régression binomiale négative. Si non, régression de Poisson. Y a-t-il zéro inflation? Si oui, Poisson gonflé zéro ou binôme négatif gonflé zéro.

Question 1 Il ne semble pas y avoir d'indication claire sur laquelle utiliser quand. Y a-t-il quelque chose pour éclairer cette décision? D'après ce que je comprends, une fois que vous êtes passé à ZIP, la variance moyenne étant une supposition égale, elle est assouplie, donc c'est à nouveau assez similaire à NB.

Question 2 Où la famille géométrique s'intègre-t-elle dans ce domaine ou quel genre de questions dois-je poser aux données lorsque je décide d'utiliser une famille géométrique dans ma régression?

Question 3 Je vois des gens qui échangent les distributions binomiale et Poisson négatives tout le temps mais pas géométriques, donc je suppose qu'il y a quelque chose de distinctement différent quand l'utiliser. Si oui, c'est quoi?

PS J'ai fait un diagramme (probablement trop simplifié, à partir des commentaires) ( modifiable ) de ma compréhension actuelle si les gens voulaient le commenter / le modifier pour la discussion. Données de comptage: arbre de décision GLM

— timothy.s.lau
source

Je ne connais que la programmation R, mais j'espère que cette aide ... stats.stackexchange.com/questions/60643/…

— RYO ENG Lian Hu

@RYOENG, je l'ai vu et j'ai exposé la différence décrite dans ma question avec l'arbre logique. Je suis particulièrement intéressé par une dist moins discutée, à savoir la dist géométrique.

— timothy.s.lau

(MISE À JOUR) La réponse de @Nick Cox ici: stats.stackexchange.com/questions/67547/when-to-use-gamma-glms semble capituler le sentiment que j'ai vu jusqu'à présent en recherchant "Il est difficile de cerner assez bien quand de l'utiliser au-delà d'une réponse vide de chaque fois que cela fonctionne le mieux "

— timothy.s.lau

@Glen_b bonne prise, j'ai mis à jour la logique.

— timothy.s.lau

Vous êtes probablement en sécurité en supprimant le paragraphe sur la façon de vous faire tinter par les mods.

— Glen_b -Reinstate Monica

La distribution de Poisson et la distribution géométrique sont des cas particuliers de la distribution binomiale négative (NB). Une notation courante est que la variance du NB est où est l'espérance et est responsable de la quantité de (sur-) dispersion. Parfois, est également utilisé. Le modèle de Poisson a , c'est-à-dire l'équidispersion, et le géométrique has . $\mu + 1/\theta \cdot \mu^2$ $\mu$ $\theta$ $\alpha = 1/\theta$ $\theta = \infty$ $\theta = 1$

Donc en cas de doute entre ces trois modèles, je recommanderais d'estimer le NB: Le pire des cas est que vous perdiez un peu d'efficacité en estimant un paramètre de trop. Mais, bien sûr, il existe également des tests formels pour évaluer si une certaine valeur pour (par exemple, 1 ou ) est suffisante. Ou vous pouvez utiliser des critères d'information, etc. $\theta$ $\infty$

Bien sûr, il existe également de nombreuses autres distributions de données de comptage à un ou plusieurs paramètres (y compris le Poisson composé que vous avez mentionné) qui peuvent parfois ou non conduire à de meilleurs ajustements.

En ce qui concerne les zéros en excès: les deux stratégies standard consistent à utiliser une distribution de données de comptage gonflée à zéro ou un modèle d'obstacles consistant en un modèle binaire pour zéro ou plus plus un modèle de données de comptage tronqué à zéro. Comme vous le mentionnez, les zéros en excès et la surdispersion peuvent être confondus, mais il reste souvent une surdispersion considérable même après ajustement du modèle pour les zéros en excès. Encore une fois, en cas de doute, je recommanderais d'utiliser un modèle d'inflation zéro ou d'obstacle basé sur le NB selon la même logique que ci-dessus.

Avertissement: Ceci est un aperçu très bref et simple. Lors de l'application des modèles dans la pratique, je recommanderais de consulter un manuel sur le sujet. Personnellement, j'aime les livres de données de comptage de Winkelmann et ceux de Cameron & Trivedi. Mais il y en a d'autres aussi. Pour une discussion basée sur R, vous pourriez également aimer notre article dans JSS ( http://www.jstatsoft.org/v27/i08/ ).

— Achim Zeileis
source

μ + μ^{2} > μ

$\mu + \mu^2 > \mu$

μ

$\mu$

Comme vous avez pu le constater à partir de mes commentaires précédents: je ne suis pas un fan de tels organigrammes trop simplificateurs. Pour choisir un bon modèle, il faut comprendre les liens entre les modèles et leur relation avec l'application pratique. Que vous soyez ou non intéressé par la géométrie dépend du cas d'application que vous avez. De même, pour une inflation zéro contre un obstacle (que vous avez omis de votre graphique). Enfin, l'ordre des questions n'est pas nécessairement le même pour toutes les applications etc.

— Achim Zeileis

Je comprends que mon croquis semble un peu simpliste. Mais pour les étudiants en sciences, il n'est pas rare de commencer par des schémas plutôt simplistes, si vous avez suivi des cours de physique, vous savez à quelle fréquence ils changent et enfreignent les "règles" que vous avez déjà apprises, qui sont le fondement d'une autre plus compréhension experte et nuancée. Donc, pour apprendre, je suis un étudiant diplômé, j'essayais simplement d'avoir une compréhension plus "correcte" des bases que je peux construire plus tard, par exemple des obstacles, etc. Merci pour les références BTW, je vais enquêter sur les manuels vous avez mentionné ainsi que votre papier.

— timothy.s.lau

\log (μ_{i}) = x_{i}^{⊤} β

$\log(\mu_i) = x_i^\top \beta$