Le modèle de régression de Poisson gonflé à zéro est défini pour un échantillon par
et il suppose en outre que les paramètres et satisfontY i = { 0 avec probabilité p i + ( 1 - p i ) e - λ i k avec probabilité ( 1 - p i ) e - λ i λ k i / k ! λ = ( λ 1 , … , λ n ) p =( y1, … , Yn)
Ouije= { 0kavec probabilité pje+ ( 1 - pje) e- λjeavec probabilité ( 1 - p je) e- λjeλkje/ k!
λ =( λ1, … , Λn)p =( p1, … , Pn)
Journal( λ )logit ( p )= B β= journal( p / ( 1 - p ) ) = G γ.
La probabilité logarithmique correspondante du modèle de régression de Poisson gonflé à zéro est
L (γ, β; y )= ∑yje= 0Journal( egjeγ+ exp( - eBjeβ) ) + ∑yje> 0(yjeBjeβ- eBjeβ)- ∑i = 1nJournal( 1 + egjeγ) - ∑yje> 0Journal( yje! )
Ici, et sont les matrices de conception. Ces matrices pourraient être les mêmes, selon les fonctionnalités que l'on souhaite utiliser pour les deux processus de génération. Ils ont cependant le même nombre de lignes.Bg
En supposant que nous puissions observer lorsque est de l'état parfait, zéro et lorsque est de l'état de Poisson, la log-vraisemblance seraitZje= 1OuijeZje= 0Ouije
L ( γ, β; y , z ) = ∑i =1nJournal( f( zje|γ) ) +∑i = 1nJournal( f( yje| zje,β) )
= ∑i = 1nzje( Gjeγ- journal( 1 + egjeγ) ) + - ∑i = 1n( 1 - zje) journal( 1 + egjeγ) +∑i = 1n( 1 - zje) [ yjeBjeβ- eBjeβ- journal(yje! ) ]
Les deux premiers termes sont la perte dans une régression logistique pour séparer
zje= 0 de
zje= 1 . Le deuxième terme est une régression vers les points générés par le processus de Poisson.
Mais les variables latentes ne sont-elles pas observables? Le but est de maximiser la première probabilité de log. Mais nous devons introduire des variables latentes et dériver une nouvelle log-vraisemblance. Ensuite, en utilisant l'algorithme EM, nous pouvons maximiser la deuxième log-vraisemblance. Mais cela suppose que nous savons que ou ?Z i = 1Zje= 0Zje= 1