Limitations de MCMC / EM? MCMC sur EM?

J'apprends actuellement des modèles bayésiens hiérarchiques en utilisant JAGS de R, et aussi pymc en utilisant Python ( "Méthodes bayésiennes pour les pirates" ).

Je peux obtenir une certaine intuition de ce post : "vous vous retrouverez avec une pile de chiffres qui ressemble" comme si "vous aviez réussi à prendre des échantillons indépendants de la distribution compliquée que vous vouliez connaître." C'est quelque chose comme je peux donner la probabilité conditionnelle, puis je peux générer un processus sans mémoire basé sur la probabilité conditionnelle. Lorsque je génère le processus assez longtemps, la probabilité conjointe peut converger, puis je peux prendre une pile de nombres à la fin de la séquence générée. C'est comme si je prenais des échantillons indépendants de la distribution conjointe compliquée. Par exemple, je peux faire un histogramme et il peut approximer la fonction de distribution.

Alors mon problème est, dois-je prouver si un MCMC converge pour un certain modèle? Je suis motivé à le savoir car j'ai déjà appris l'algorithme EM pour GMM et LDA (modèles graphiques). Si je peux simplement utiliser l'algorithme MCMC sans prouver s'il converge, cela peut gagner beaucoup plus de temps que EM. Puisque je devrai calculer la fonction de vraisemblance logarithmique attendue (devra calculer la probabilité postérieure), puis maximiser la vraisemblance logarithmique attendue. Il est apparemment plus lourd que le MCMC (j'ai juste besoin de formuler la probabilité conditionnelle).

Je me demande également si la fonction de vraisemblance et la distribution antérieure sont conjuguées. Cela signifie-t-il que le MCMC doit converger? Je m'interroge sur les limites de MCMC et EM.

bayesian mcmc expectation-maximization

— DQ_happy
source

n \to \infty

$n \rightarrow \infty$

EM est plus rapide, il n'est pas bayésien (tout le monde n'aime pas les statistiques bayésiennes) et dans certains cas, il a moins de problèmes d'identification (il converge vers une valeur maximale unique tandis qu'avec l'approche MCMC, vous avez une distribution entière qui pourrait être plus compliquée que l'estimation ponctuelle) ) etc.

— Tim

EM est utilisé pour la vraisemblance maximale ou l'estimation a posteriori maximale, mais a été initialement décrit comme algorithme ML et est couramment utilisé dans l'approche ML (voir en.wikipedia.org/wiki/… ).

— Tim

Même si vous utilisez EM pour l'estimation de MAP plutôt que ML, ce n'est pas bayésien pour moi car il essaie de caractériser la distribution postérieure mais ne vous donne que le mode local.

— Luca

Pour moi, l'utilisation de l'EM est non bayésienne car elle vous donne une estimation ponctuelle de vos paramètres d'intérêt et ne quantifie pas la distribution postérieure complète. Avec EM et MCMC, on peut avoir un modèle probabiliste complet avec des a priori, des variables aléatoires latentes et observées mais l'inférence est différente. MCMC vise à caractériser la distribution postérieure complète tandis que EM donne ne transmet pas les informations de la distribution postérieure complète. Pour moi, un Bayésien est quelqu'un qui utilise la distribution postérieure pour la prise de décision. Cependant, cela pourrait être simpliste. J'apprends aussi ce genre de choses.

— Luca

EM est une technique d'optimisation: étant donné une probabilité avec des variables latentes utiles, elle retourne un maximum local, qui peut être un maximum global en fonction de la valeur de départ.

MCMC est une méthode de simulation: étant donné une probabilité avec ou sans variables latentes, et a priori, elle produit un échantillon qui est approximativement distribué à partir de la distribution postérieure. Les premières valeurs de cet échantillon dépendent généralement de la valeur de départ, ce qui signifie qu'elles sont souvent rejetées en tant qu'étape de rodage (ou d'échauffement).

Lorsque cet échantillon est utilisé pour évaluer les intégrales associées à la distribution postérieure [la grande majorité des cas], les propriétés de convergence sont essentiellement les mêmes que celles d'une approximation iid Monte Carlo, en vertu du théorème ergodique.

$(x_t,\ldots,x_{t+T})$ $\pi(x|\mathfrak{D})$

— Xi'an
source