Merci pour la question intéressante!
Différence: Une des limites des modèles de comptage standard est que les zéros et les non-zéros (positifs) sont supposés provenir du même processus de génération de données. Avec les modèles d'obstacles , ces deux processus ne sont pas obligés d'être identiques. L'idée de base est qu'une probabilité de Bernoulli gouverne le résultat binaire de savoir si une variable de comptage a une réalisation nulle ou positive. Si la réalisation est positive, l'obstacle est franchi et la distribution conditionnelle des positifs est régie par un modèle de données à compte tronqué à zéro. Avec des modèles gonflés à zéro, la variable de réponse est modélisée comme un mélange d’une distribution de Bernoulli (ou appelez-la une masse ponctuelle à zéro) et d’une distribution de Poisson (ou de toute autre distribution de comptage prise en charge sur des entiers non négatifs). Pour plus de détails et de formules, voir, par exemple, Gurmu et Trivedi (2011) et Dalrymple, Hudson et Ford (2003).
Exemple: les modèles d'obstacles peuvent être motivés par des processus de prise de décision séquentiels auxquels les individus sont confrontés. Vous décidez d’abord si vous devez acheter quelque chose, puis vous décidez de la quantité de ce quelque chose (qui doit être positif). Lorsque vous êtes autorisé à acheter (ou que vous pouvez potentiellement) ne rien acheter après votre décision d'acheter quelque chose, c'est un exemple de situation dans laquelle un modèle à gonflement nul est approprié. Les zéros peuvent provenir de deux sources: a) aucune décision d'achat; b) voulait acheter mais n'a finalement rien acheté (par exemple, en rupture de stock).
Bêta: le modèle obstacle est un cas particulier du modèle en deux parties décrit au chapitre 16 de Frees (2011). Nous verrons ici que pour les modèles en deux parties, la quantité de soins de santé utilisée peut être une variable continue et une variable de comptage. Donc, ce qui a été appelé de manière quelque peu déroutante "distribution bêta à zéro" dans la littérature appartient en fait à la classe des distributions et modèles en deux parties (si courante en science actuarielle), ce qui est cohérent avec la définition ci-dessus d'un modèle d'obstacle . Cet excellent livre traite des modèles à gonflage nul dans la section 12.4.1 et des modèles à obstacles dans la section 12.4.2, avec des formules et des exemples tirés d'applications actuarielles.
Historique: les modèles de Poisson à inflation zéro (ZIP) sans covariables ont une longue histoire (voir par exemple Johnson et Kotz, 1969). La forme générale des modèles de régression ZIP intégrant des covariables est due à Lambert (1992). Les modèles Hurdle ont été proposés pour la première fois par un statisticien canadien Cragg (1971), puis développés par Mullahy (1986). Vous pouvez également envisager Croston (1972), où des comptes géométriques positifs sont utilisés conjointement avec le processus de Bernoulli pour décrire un processus à valeur entière, dominé par des zéros.
R: Enfin, si vous utilisez R, il existe un paquet pscl pour "Classes et méthodes pour R développé dans le laboratoire de science politique" de Simon Jackman, contenant les fonctions hurdle () et zeroinfl () de Achim Zeileis.
Les références suivantes ont été consultées pour produire ce qui précède:
- Gurmu, S. & Trivedi, PK Excès de zéros dans les modèles de comptage pour les voyages de loisirs Journal of Business & Economic Statistics, 1996, 14, 469-477
- Johnson, N., Kotz, S., Distributions in Statistics: Distributions discrètes. 1969, Houghton MiZin, Boston
- Lambert, D., Régression de Poisson à gonflage nul avec une application aux défauts de fabrication. Technometrics, 1992, 34 (1), 1–14.
- Cragg, JG Quelques modèles statistiques pour des variables dépendantes limitées avec application à la demande de biens durables Econometrica, 1971, 39, 829-844
- Mullahy, J. Spécifications et essais de certains modèles de données de comptage modifiés Journal of Econometrics, 1986, 33, 341-365
- Frees, Modélisation de régression EW avec applications actuarielles et financières Cambridge University Press, 2011
- Dalrymple, ML; Hudson, IL & Ford, RPK, modèles finis de mélange et de poisson et de haies à gonflement nul avec application au SMSN Statistiques de calcul et d'analyse de données, 2003, 41, 491-504
- Croston, JD Prévisions et contrôle des stocks pour les demandes intermittentes Operational Research Quarterly, 1972, 23, 289-303