Mesure de la «déviance» pour le Poisson zéro gonflé ou le binôme négatif gonflé zéro?

La déviance à l'échelle, définie comme D = 2 * (log-vraisemblance du modèle saturé moins log-vraisemblance du modèle ajusté), est souvent utilisée comme mesure de la qualité de l'ajustement dans les modèles GLM. Le pourcentage de déviance expliqué, défini comme [D (modèle nul) - D (modèle ajusté)] / D (modèle nul), est également parfois utilisé comme l'analogue GLM au R au carré de la régression linéaire. Mis à part le fait que les distributions ZIP et ZINB ne font pas partie de la famille exponentielle des distributions, j'ai du mal à comprendre pourquoi la déviance à l'échelle et le pourcentage de déviance expliqués ne sont pas utilisés dans la modélisation à gonflement nul. Quelqu'un peut-il nous éclairer à ce sujet ou fournir des références utiles? Merci d'avance!

goodness-of-fit zero-inflation deviance

— aleanjeo
source

très bonne question - j'aimerais le savoir aussi

— user2673238

La déviance est un concept GLM, les modèles ZIP et ZINB ne sont pas des glms mais sont formulés comme des mélanges finis de distributions qui sont des GLM et peuvent donc être résolus facilement via l'algorithme EM.

Ces notes décrivent la théorie de la déviance de manière concise. Si vous lisez ces notes, vous verrez la preuve que le modèle saturé pour la régression de Poisson a une probabilité logarithmique

ℓ (λ_{s}) = \sum_{je = 1, \forall y_{je} \neq 0}^{n} [y_{je} l o g (y_{je}) - y_{je} - l o g (y_{je}!)]

$\ell(\lambda_s)= \sum_{i=1, \forall y_i\neq 0}^n \left[ y_ilog(y_i)-y_i -log(y_i!)\right]$

qui résulte de l'estimation plug-in . $y_i =\hat{\lambda}_i$

Je vais maintenant procéder avec la probabilité ZIP car les calculs sont plus simples, des résultats similaires sont valables pour le ZINB. Malheureusement pour le ZIP, il n'y a pas de relation simple comme dans le Poisson. La ème observation log-vraisemblance est $i$

ℓ_{je} (ϕ, λ) = Z_{je} l o g (ϕ + (1 - ϕ) e^{- λ}) + (1 - Z_{je}) [- λ + y_{je} l o g (λ) - l o g (y_{je}!)] .

$\ell_i(\phi, \lambda)=Z_ilog(\phi+(1-\phi)e^{-\lambda})+ (1-Z_i)\left[-\lambda +y_ilog(\lambda) -log(y_i!)\right].$

les ne sont pas observés, donc pour résoudre ce problème, vous devrez prendre des dérivées partielles par rapport à la fois à et à , régler les équations à 0, puis résoudre pour et . La difficulté ici sont les valeurs, celles - ci peuvent aller dans un ou en et il est impossible sans observer qui pour mettre l' observations dans. Cependant, si nous connaissions le $Z_i$ $\lambda$ $\phi$ $\lambda$ $\phi$ $y_i=0$ $\hat{\lambda}$ $\hat{\phi}$ $Z_i$ $y_i=0$ $Z_i$ valeur, nous n'aurions pas besoin d'un modèle ZIP car nous n'aurions aucune donnée manquante. Les données observées correspondent à la vraisemblance des «données complètes» dans le formalisme EM.

Une approche qui pourrait être raisonnable consiste à travailler avec l'espérance par rapport à de la vraisemblance complète du journal de données, qui supprime le et le remplace par une attente, cela fait partie de ce que le L'algorithme EM calcule (l'étape E) avec les mises à jour les plus récentes. Je ne connais aucune littérature ayant étudié cette approche de la déviance . $Z_i$ $\mathbb{E}(\ell_i(\phi, \lambda))$ $Z_i$ $expected$

En outre, cette question a été posée en premier, j'ai donc répondu à ce message. Cependant, il y a une autre question sur le même sujet avec un bon commentaire de Gordon Smyth ici: déviance pour le modèle composé de poisson zéro gonflé, données continues (R) où il a mentionné la même réponse (ceci est une élaboration de ce commentaire que je dire) et ils ont mentionné dans les commentaires à l'autre poste un article que vous voudrez peut-être lire. (avertissement, je n'ai pas lu le document référencé)

— Lucas Roberts
source