C'est une question récurrente (voir cet article , cet article et cet article ), mais j'ai un tour différent.
Supposons que j'ai un tas d'échantillons d'un échantillonneur MCMC générique. Pour chaque échantillon , je connais la valeur du log vraisemblance et du log prior . Si cela aide, je connais également la valeur de la vraisemblance du journal par point de données, (ces informations aident avec certaines méthodes, telles que WAIC et PSIS-LOO).log f ( x | θ ) log f ( θ ) log f ( x i | θ )
Je veux obtenir une estimation (brute) de la probabilité marginale, juste avec les échantillons que j'ai, et éventuellement quelques autres évaluations de fonctions (mais sans relancer un MCMC ad hoc ).
Tout d'abord, effaçons le tableau. Nous savons tous que l'estimateur harmonique est le pire estimateur de tous les temps . Allons-nous en. Si vous faites un échantillonnage de Gibbs avec des prieurs et des postérieurs sous forme fermée, vous pouvez utiliser la méthode de Chib ; mais je ne sais pas comment généraliser en dehors de ces cas. Il existe également des méthodes qui vous obligent à modifier la procédure d'échantillonnage (par exemple via des postérieurs trempés ), mais cela ne m'intéresse pas ici.
L'approche à laquelle je pense consiste à approximer la distribution sous-jacente avec une forme paramétrique (ou non paramétrique) , puis à déterminer la constante de normalisation comme un problème d'optimisation 1-D (c'est-à-dire le qui minimise certaines erreurs) entre et , évalué sur les échantillons). Dans le cas le plus simple, supposons que le postérieur soit à peu près normal à plusieurs variables, je peux adapter comme une normale à plusieurs variables et obtenir quelque chose de similaire à une approximation de Laplace (je pourrais vouloir utiliser quelques évaluations de fonctions supplémentaires pour affiner la position de la mode). Cependant, je pourrais utiliser commeZ Z Z g ( θ ) f ( x | θ ) f ( θ ) g ( θ ) g ( θ )une famille plus flexible telle qu'un mélange variationnel de distributions multivariées .
J'apprécie que cette méthode ne fonctionne que si est une approximation raisonnable de , mais toute raison ou mise en garde expliquant pourquoi il serait très imprudent de fais le? Une lecture que vous recommanderiez?f ( x | θ ) f ( θ )
L'approche entièrement non paramétrique utilise une famille non paramétrique, comme un processus gaussien (GP), pour approximer (ou une autre transformation non linéaire de celui-ci, telle que comme racine carrée) et la quadrature bayésienne à intégrer implicitement sur la cible sous-jacente (voir ici et ici ). Cela semble être une approche alternative intéressante, mais analogue dans l'esprit (notez également que les généralistes seraient difficiles à manier dans mon cas).