J'avoue avoir posé cette question pendant un certain temps un peu plus tôt dans ma carrière. Une façon dont je me suis convaincu de la réponse était de prendre une vue extrêmement pratique et appliquée de la situation, une vue qui reconnaît qu'aucune mesure n'est parfaite. Voyons où cela pourrait mener.
Le but de cet exercice est d'exposer les hypothèses qui pourraient être nécessaires pour justifier le mélange quelque peu désinvolte des densités et des probabilités dans les expressions de vraisemblances. Je soulignerai donc ces hypothèses partout où elles seront introduites. Il s'avère que quelques-uns sont nécessaires, mais ils sont assez doux et couvrent toutes les applications que j'ai rencontrées (qui seront évidemment limitées, mais en incluent encore quelques-unes).
Le problème concerne une distribution mixte qui n'est ni absolument continue ni singulière. Le théorème de décomposition de Lebesgue nous permet de considérer une telle distribution comme un mélange d'une distribution absolument continue (qui par définition a une fonction de densité ) et d'une singulière ("discrète"), qui a une fonction de masse de probabilité (Je vais ignorer la possibilité qu'un troisième composant, continu mais pas absolument continu, soit présent. Ceux qui utilisent de tels modèles ont tendance à savoir ce qu'ils font et ont généralement toutes les compétences techniques pour les justifier.)F,FuneFré.
Lorsque est membre d'une famille paramétrique de distributions, nous pouvons écrireF=Fθ
Fθ( x ) =Fa θ( x ) +Fréθ( x ) =∫X∞Fune( t ; θ ) d t +∑t ≤ xFré( t ; θ ) .
(La somme est tout au plus dénombrable, bien sûr.) Ici, est une fonction de densité de probabilité multipliée par un certain coefficient de mélange et est une probabilité fonction de masse multipliée parFune(; θ )λ ( θ )Fré(; θ )1 - λ ( θ ) .
Interprétons toute observation dans un ensemble de données iid comme "vraiment", ce qui signifie que nous avons une certaine connaissance qu'une vraie valeur sous-jacente réelle se situe dans un intervalle entourant mais sans informations sur En supposant que nous connaissons tous les deltas et epsilons, cela ne pose plus de problème pour construire une vraisemblance car tout peut être exprimé en termes de probabilités:XjeX= (X1,X2, … ,Xn)yje(Xje-δje,Xje+ϵje]Xje,yje.
L (X; θ ) =∏je(Fθ(Xje+ϵje) -Fθ(Xje-δje) ) .
Si le support de n'a pas de points de condensation à n'importe quelFréθXje, sa contribution à la probabilité se réduira au maximum à un seul terme à condition que les epsilons et les deltas soient rendus suffisamment petits: il n'y aura pas de contribution lorsque n'est pas dans son soutien.Xje
Si nous supposons que est Lipschitz continu à toutes les valeurs de données,Fune(; θ ) alors uniformément dans les tailles des epsilons et deltas, nous pouvons approximer la partie absolument continue de commeFθ(Xje)
Fa θ(Xje+ϵje) -Fa θ(Xje-δje) =Fune(Xje; θ ) (ϵje+δje) + o ( |ϵje+δje| ).
L'uniformité de cette approximation signifie que lorsque nous prenons tous les epsilons et deltas pour devenir petits, tous les termes deviennent également petits. Par conséquent, il existe une valeur infiniment petite régie par les contributions de tous ces termes d'erreur, pour laquelleo ( )ϵ ( θ ) > 0 ,
L (X; θ )=∏je(Fune(Xje; θ ) (ϵje+δje) + o ( |ϵje+δje| )+Fré(Xje; θ ) )=∏je(Fune(Xje; θ ) (ϵje+δje) +Fré(Xje;θ)) + o(ϵ(θ)).
C'est encore un peu compliqué, mais cela montre où nous allons. Dans le cas de données censurées, généralement une seule partie de chaque terme dans le produit sera différente de zéro, car ces modèles supposent généralement que le support de la partie singulière de la distribution est dissocié du support de la partie continue, quel que soit le le paramètre pourrait être. θ(Plus précisément: implique ) Cela nous permet de diviser le produit en deux parties et nous pouvons factoriser les contributions de tous les intervalles hors de la partie continue:Fré( x ) ≠ 0Fune( x + ϵ ) -Fune( x - ϵ ) = o ( ϵ ) .
L (X; θ ) = (∏i = 1k(ϵje+δje) )∏i = 1kFune(Xje; θ ) ∏i = k + 1nFré(Xje; θ ) .
(Sans aucune perte de généralité, j'ai indexé les données de sorte que contribuent à la partie continue et sinon contribue à la partie singulière de la probabilité.)Xje, i = 1 , 2 , … , kXje, i = k + 1 , k + 2 , … , n
Cette expression montre maintenant clairement que
Étant donné que les largeurs d'intervalle sont fixes, elles ne contribuent pas à la vraisemblance (qui n'est définie que jusqu'à un multiple constant positif).ϵje+δje
En conséquence, nous pouvons travailler avec l'expression
L (X; θ ) =∏i = 1kFune(Xje; θ ) ∏i = k + 1nFré(Xje; θ )
lors de la construction des rapports de vraisemblance ou de la maximisation de la probabilité. La beauté de ce résultat est que nous n'avons jamais besoin de connaître les tailles des intervalles finis qui sont utilisés dans cette dérivation: les epsilons et les deltas tombent immédiatement. Nous avons seulement besoin de savoir que nous pouvons les rendre suffisamment petits pour que l'expression de vraisemblance avec laquelle nous travaillons soit une approximation adéquate de l'expression de vraisemblance que nous utiliserions si nous connaissions les tailles d'intervalle.