L'article que j'ai trouvé clarifiant en ce qui concerne la maximisation des attentes est le K-Means bayésien comme algorithme de "maximisation-attente" (pdf) par Welling et Kurihara.
Supposons que nous ayons un modèle probabiliste avec observations, variables aléatoires cachées et un total de paramètres . On nous donne un ensemble de données et sommes contraints (par des puissances supérieures) d'établir .x z θ D p ( z , θ | D )p(x,z,θ)xzθDp(z,θ|D)
1. Échantillonnage de Gibbs
Nous pouvons approximer par échantillonnage. L'échantillonnage de Gibbs donne en alternant:p ( z , θ | D )p(z,θ|D)p(z,θ|D)
θ∼p(θ|z,D)z∼p(z|θ,D)
2. Bayes variationnels
Au lieu de cela, nous pouvons essayer d'établir une distribution et et minimiser la différence avec la distribution que nous recherchons après . La différence entre les distributions a un nom de fantaisie pratique, la divergence KL. Pour minimiser nous mettons à jour:q ( z ) p ( θ , z | D ) K L [ q ( θ ) q ( z ) | | p ( θ , z | D ) ]q(θ)q(z)p(θ,z|D)KL[q(θ)q(z)||p(θ,z|D)]
q(θ)∝exp(E[logp(θ,z,D)]q(z))q(z)∝exp(E[logp ( θ,z, D )]q( θ ))
3. Attente-maximisation
Trouver des distributions de probabilité à part entière pour et pourrait être considéré comme extrême. Pourquoi ne considérons-nous pas plutôt une estimation ponctuelle pour l'un d'entre eux et gardons l'autre agréable et nuancé. Dans EM, le paramètre est établi comme étant indigne d'une distribution complète, et défini sur sa valeur MAP (Maximum A Posteriori), .θ θ θ ∗zθθθ∗
θ∗=argmaxθE[logp ( θ ,z, D ) ]q(z)q(z) = p ( z|θ∗, D )
Ici serait en fait une meilleure notation: l'opérateur argmax peut retourner plusieurs valeurs. Mais n'attaquons pas. Comparé aux Bayes variationnels, vous voyez que la correction du by ne change pas le résultat, donc ce n'est plus nécessaire.log expθ∗∈ argmaxJournalexp
4. Maximisation-Attente
Il n'y a aucune raison de considérer comme un enfant gâté. Nous pouvons tout aussi bien utiliser les estimations ponctuelles pour nos variables cachées et donner aux paramètres le luxe d'une distribution complète.z ∗ θzz∗θ
z∗=argmaxzE[logp(θ,z,D)]q(θ)q(θ)=p(θ|z∗,D)
Si nos variables cachées sont des variables indicatrices, nous avons soudainement une méthode bon marché pour effectuer une inférence sur le nombre de grappes. C'est-à-dire: sélection de modèle (ou détection automatique de pertinence ou imaginez un autre nom de fantaisie).z
5. Modes conditionnels itérés
Bien sûr, l'enfant poster d'une inférence approximative est d'utiliser des estimations ponctuelles pour les paramètres ainsi que pour les observations .zθz
θ∗=argmaxθp(θ,z∗,D)z∗=argmaxzp(θ∗,z,D)
Pour voir comment Maximization-Expectation se joue, je recommande fortement l'article. À mon avis, la force de cet article n'est cependant pas l'application à une alternative moyennes, mais cette exposition lucide et concise de l'approximation.k