Pourquoi faut-il échantillonner à partir de la distribution postérieure si nous connaissons déjà la distribution postérieure?


19

Ma compréhension est que lorsque vous utilisez une approche bayésienne pour estimer les valeurs des paramètres:

  • La distribution postérieure est la combinaison de la distribution antérieure et de la distribution de vraisemblance.
  • Nous simulons cela en générant un échantillon à partir de la distribution postérieure (par exemple, en utilisant un algorithme Metropolis-Hasting pour générer des valeurs, et les accepter si elles sont au-dessus d'un certain seuil de probabilité d'appartenir à la distribution postérieure).
  • Une fois que nous avons généré cet échantillon, nous l'utilisons pour approximer la distribution postérieure, et des choses comme sa moyenne.

Mais, je sens que je dois mal comprendre quelque chose. Il semble que nous ayons une distribution postérieure et que nous en échantillonnions, puis que nous utilisions cet échantillon comme approximation de la distribution postérieure. Mais si nous avons la distribution postérieure pour commencer, pourquoi devons-nous en échantillonner pour l'approcher?

Réponses:


20

Cette question a probablement déjà été examinée sur ce forum.

Lorsque vous déclarez que vous "avez la distribution postérieure", que voulez-vous dire exactement? "Avoir" une fonction de que je connais est proportionnelle à la postérieure, à savoir π ( θ | x ) π ( θ ) × f ( xθ par exemple la cible complètement artificielle π ( θ | x ) exp { - | | θ - x | | 2 - | | θ + x

π(θ|X)π(θ)×F(X|θ)
ne me dit pas ce qui est
π(θ|X)exp{-||θ-X||2-||θ+X||4-||θ-2X||6},  X,θR18,
  1. l'espérance postérieure d'une fonction de , par exemple E [ h ( θ ) | x ] , moyenne postérieure qui fonctionne comme un estimateur bayésien avec des pertes standard;θE[h(θ)|X]
  2. la décision optimale sous une fonction d'utilité arbitraire, décision qui minimise la perte postérieure attendue;
  3. une plage d'incertitude de 90% ou 95% sur le ou les paramètres, un sous-vecteur du ou des paramètres ou une fonction du ou des paramètres, alias région HPD
    {h=h(θ); πh(h)h_}
  4. le modèle le plus susceptible de choisir entre le réglage de certaines composantes du ou des paramètres à des valeurs spécifiques ou leur maintien inconnu (et aléatoire).

Ce ne sont que des exemples de nombreux usages de la distribution postérieure. Dans tous les cas, sauf les plus simples, je ne peux pas fournir de réponses en regardant la densité de distribution postérieure et j'ai besoin de passer par des résolutions numériques comme les méthodes de Monte Carlo et de la chaîne de Markov Monte Carlo.


Merci beaucoup pour la réponse Xi'an. Je suis sûr que cela répond à ma question, mais j'ai toujours un peu de difficulté à la comprendre. Ai-je raison de dire que nous avons une fonction de densité de probabilité correspondant à la postérieure (c'est-à-dire en combinant l'a priori et la vraisemblance)? Pourquoi ne pourrions-nous pas trouver l'IC à 95% directement à partir de cela, plutôt que de la distribution postérieure échantillonnée?
Dave

2
@ Dave Je pense que la clé ici est ce que vous entendez par «avoir». En général, vous n'aurez pas de solution sous forme fermée, vous n'aurez donc pas "la" fonction dans un sens utile.
moine

@monk merci pour la réponse! Cela vous dérange-t-il d'élaborer sur ce qui fait une solution de formulaire non fermé?
Dave

2
Supposons que votre a priori soit bêta (a, b) et que votre probabilité soit binomiale (n, p). Comment calculez-vous la valeur attendue de votre postérieur? Essayez de travailler l'intégrale de ce produit avec un stylo et du papier. En général, une telle intégrale nécessitera un ordinateur pour obtenir une valeur précise. Alternativement, vous pourriez découvrir que la bêta est conjuguée avant le binôme, et donc la partie postérieure sera la bêta (avec des paramètres facilement calculables). Mais souvent, vous n'aurez pas autant de chance. Épingler une définition de «forme fermée» est difficile et mérite d'être lu seul.
moine

4

Oui, vous pourriez avoir une distribution analytique postérieure. Mais le cœur de l'analyse bayésienne est de marginaliser la distribution postérieure des paramètres afin d'obtenir un meilleur résultat de prédiction à la fois en termes de précision et de capacité de généralisation. Fondamentalement, vous souhaitez obtenir une distribution prédictive qui a la forme suivante.

p(X|)=p(X|w)p(w|)w

est la distribution postérieure pour laquelle vous pourriez avoir une forme analytique. Mais dans de nombreux cas, p ( w | D )p(w|)p(w|)p(X|w)

En utilisant notre site, vous reconnaissez avoir lu et compris notre politique liée aux cookies et notre politique de confidentialité.
Licensed under cc by-sa 3.0 with attribution required.