Pourquoi MCMC est-il nécessaire lors de l'estimation d'un paramètre à l'aide de MAP

Étant donné la formule d'estimation MAP d'un paramètre Pourquoi une approche MCMC (ou similaire) est-elle nécessaire, ne pourrais-je pas simplement prendre la dérivée, la mettre à zéro, puis résoudre le paramètre?

bayesian estimation mcmc

— Dänu
source

Grande question!

Réponses:

Si vous savez de quelle famille appartient votre postérieur et si trouver le dérivé de cette distribution est faisable analytiquement, c'est correct.

Cependant, lorsque vous utilisez MCMC, vous n'allez probablement pas être dans ce type de situation. Le MCMC est conçu pour les situations dans lesquelles vous n'avez pas de notion analytique claire de l'apparence de votre postérieur.

— Christoph Hanck
source

Je pense que cela est légèrement trompeur: MCMC n'est généralement pas utilisé pour trouver l'estimateur MAP (en dehors de cas spéciaux comme un algorithme MCEM).

— Cliff AB

Je ne suis pas en désaccord avec vous en principe. Mais, MCMC peut être et est utilisé pour simuler la distribution postérieure . Et une fois que vous avez fait cela, vous pouvez certainement trouver le mode de cette distribution, alias le MAP. C'est, je crois, ce que le PO avait en tête, donc je ne sais pas trop pourquoi ma réponse serait trompeuse.

— Christoph Hanck

Oui, cependant, le MCMC est-il la méthode de choix lorsqu'il s'agit de MAP s'il n'existe aucun moyen analytique d'optimiser le paramètre?

— Dänu

Je n'ai jamais entendu parler de l'utilisation d'un simple MCMC pour trouver le mode de la distribution postérieure (techniquement, cela pourrait être fait, mais c'est extrêmement inefficace). Étant donné que nous pouvons généralement évaluer une fonction proportionnelle à la distribution postérieure, la maximiser équivaudra à maximiser la distribution postérieure. Les optimiseurs prêts à l'emploi fonctionneront aussi bien sur ce problème que tout problème de probabilité fréquentiste (c'est-à-dire que vous devrez parfois les spécialiser).

— Cliff AB

@ Dänu Vous ne voulez probablement pas utiliser MCMC (pour être pédant, une chaîne de Markov) pour trouver des maxima. Un algorithme d'optimisation devrait mieux fonctionner.

— jtobin

La plupart des postérieurs s'avèrent difficiles à optimiser analytiquement (c.-à-d. En prenant un gradient et en le fixant à zéro), et vous devrez recourir à un algorithme d'optimisation numérique pour faire MAP.

En passant: MCMC n'est pas lié à MAP.

MAP - pour maximum a posteriori - se réfère à la recherche d'un maximum local de quelque chose de proportionnel à une densité postérieure et à l'utilisation des valeurs de paramètres correspondantes comme estimations. Il est défini comme

{\hat{θ}}_{M A P} = {argmax}_{θ} p (θ | D)

$\hat{\theta}_{MAP} = \text{argmax}_{\theta} \, p(\theta \, | \, D)$

MCMC est généralement utilisé pour approximer les attentes sur quelque chose de proportionnel à une densité de probabilité. Dans le cas d'un postérieur, c'est

{\hat{θ}}_{M C M C} = n^{- 1} \sum_{i = 1}^{n} θ_{i}^{0} \approx \int_{Θ} θ p (θ | D) d θ

$\hat{\theta}_{MCMC} = n^{-1} \sum_{i=1}^{n} \theta^{0}_{i} \approx \int_{\Theta}\theta \, p(\theta \, | \, D)d\theta$

$\{\theta^{0}_{i}\}^{n}_{i=1}$ $\hat{\theta}_{MAP} \neq \hat{\theta}_{MCMC}$

Le nœud est que MAP implique une optimisation , tandis que MCMC est basé sur l' échantillonnage .

— jtobin
source

Vous dites que les postérieurs s'avèrent difficiles à optimiser analytiquement, ce qui est le cas dans MAP. La MAP n'est-elle donc possible que si le postérieur peut être optimisé analytiquement et si ce n'est pas le cas, il faut recourir (par exemple) à une approche MCMC?

— Dänu

Non, au lieu de venir avec la solution analytique, on peut utiliser un algorithme itératif pour trouver la solution (c'est-à-dire si le log postérieur est concave, vous pouvez utiliser la méthode de Newton, par exemple).

— Cliff AB

MAP fait référence à la recherche de valeurs de paramètres qui maximisent (localement) un postérieur. Peu importe comment on obtient ces valeurs de paramètre: résolution analytique des maxima, utilisation d'une routine numérique, différenciation automatique, etc.

— jtobin