À ma compréhension (très modeste) de l'inférence variationnelle, on essaie d'approximer une distribution inconnue en trouvant une distribution qui optimise ce qui suit:
Chaque fois que j'investis du temps dans la compréhension de l'inférence variationnelle, je continue à appuyer sur cette formule et je ne peux m'empêcher de sentir que je manque le point. Il semble que j'ai besoin de connaître pour calculer . Mais le fait était que je ne connaissais pas cette distribution .
C'est ce point précis qui me dérange chaque fois que j'essaie de lire quelque chose de variationnel. Qu'est-ce que je rate?
MODIFIER :
Je vais ajouter quelques commentaires supplémentaires ici à la suite de la réponse de @wij, je vais essayer d'être plus précis.
Dans les cas qui m'intéressent, il semble en effet parfaitement raisonnable de considérer que ce qui suit est valable;
Dans ce cas, je pourrais savoir à quoi devrait ressembler proportionnellement car j'aurai fait un choix de modèle pour p ( D | θ ) et p ( θ ) . Aurais-je alors raison de dire que je dois alors choisir une distribution familiale q [disons gaussienne] telle que maintenant je peux estimer K L ( p ( θ | D ) | | q ) . Il me semble que dans ce cas, j'essaie d'adapter un gaussien qui est proche du p non normalisé ( D | θ ) . Est-ce correct?
Si c'est le cas, j'ai l'impression de supposer que ma postérieure est une distribution normale et j'essaie simplement de trouver des valeurs probables pour cette distribution en ce qui concerne la divergence