Inférence variationnelle, la divergence KL nécessite un vrai


12

À ma compréhension (très modeste) de l'inférence variationnelle, on essaie d'approximer une distribution inconnue p en trouvant une distribution q qui optimise ce qui suit:

KL(p||q)=xp(x)logp(x)q(x)

Chaque fois que j'investis du temps dans la compréhension de l'inférence variationnelle, je continue à appuyer sur cette formule et je ne peux m'empêcher de sentir que je manque le point. Il semble que j'ai besoin de connaître p pour calculer KL(p||q) . Mais le fait était que je ne connaissais pas cette distribution p .

C'est ce point précis qui me dérange chaque fois que j'essaie de lire quelque chose de variationnel. Qu'est-ce que je rate?

MODIFIER :

Je vais ajouter quelques commentaires supplémentaires ici à la suite de la réponse de @wij, je vais essayer d'être plus précis.

Dans les cas qui m'intéressent, il semble en effet parfaitement raisonnable de considérer que ce qui suit est valable;

p(θ|D)=p(D|θ)p(θ)p(D)p(D|θ)p(θ)

Dans ce cas, je pourrais savoir à quoi devrait ressembler proportionnellement car j'aurai fait un choix de modèle pour p ( D | θ ) et p ( θ ) . Aurais-je alors raison de dire que je dois alors choisir une distribution familiale q [disons gaussienne] telle que maintenant je peux estimer K L ( p ( θ | D ) | | q ) . Il me semble que dans ce cas, j'essaie d'adapter un gaussien qui est proche du p non normalisé ( D | θ )pp(D|θ)p(θ)qKL(p(θ|D)||q) . Est-ce correct?p(D|θ)p(θ)

Si c'est le cas, j'ai l'impression de supposer que ma postérieure est une distribution normale et j'essaie simplement de trouver des valeurs probables pour cette distribution en ce qui concerne la divergence KL

Réponses:


7

J'ai l'impression que vous traitez comme un objet complètement inconnu. Je ne pense pas que ce soit le cas. C'est probablement ce que vous avez manqué.p

Supposons que nous observons (iid) et que nous voulons inférer p ( x | Y ) où nous supposons que p ( y | x ) et p ( x ) pour x R d sont spécifiés par le modèle. Selon la règle de Bayes,Y={yi}i=1np(x|Y)p(y|x)p(x)xRd

p(x|Y)=p(x)p(Y)p(Y|x)=p(x)p(Y)i=1np(yi|x).

La première observation est que nous savons quelque chose sur la distribution postérieure . Il est donné comme ci-dessus. Typiquement, nous ne connaissons simplement pas son normalisateur p ( Y ) . Si la probabilité p ( y | x ) est très compliquée, alors nous finissons par avoir une distribution p ( x | Y ) compliquée .p(x|Y)p(Y)p(y|x)p(x|Y)

La deuxième chose qui permet de faire de l'inférence variationnelle est qu'il existe une contrainte sur la forme que peut prendre. Sans aucune contrainte, arg min q K L ( p | | q ) serait p ce qui est habituellement insoluble. En règle générale, q est supposé vivre dans un sous-ensemble choisi de la famille exponentielle. Par exemple, cela pourrait être la famille de distributions gaussiennes entièrement factorisées, c.-à-d. Q Q = { d i = 1 q i ( x i ) qargminqKL(p||q)pq . Il s'avère que si c'est votre ensemble de contraintes, alors chaque composante de q est donnée parqQ={i=1dqi(xi)each qi is a one-dimensional Gaussian}q

qiexp(Ejiqjlogp(x,Y)),

La formule exacte n'a pas beaucoup d'importance. Le fait est que le q approximatif peut être trouvé en s'appuyant sur la connaissance du vrai p et sur l'hypothèse de la forme que le q approximatif devrait prendre.p(x,Y)=p(x)i=1np(yi|x).qpq

Mise à jour

Ce qui suit est de répondre à la partie mise à jour de la question. Je viens de réaliser que je pensais à . J'utiliserai toujours p pour la vraie quantité et q pour une quantité approximative. Dans l'inférence variationnelle ou bayésienne variationnelle, q est donné parKL(q||p(x|Y))pqq

q=argminqQKL(q||p(X|Oui)).

Avec l'ensemble de contraintes comme ci-dessus, la solution est celle donnée précédemment. Maintenant, si vous pensezQ

q=argminqQKL(p(X|Oui)||q),

pour défini comme un sous-ensemble de la famille exponentielle, alors cette inférence est appelée propagation d'espérance (EP). La solution de q dans ce cas est celle telle que ses moments correspondent à ceux de p ( x | Y ) .Qqp(X|Oui)

Quoi qu'il en soit, vous avez raison de dire que vous essayez essentiellement d'approximer la vraie distribution postérieure au sens KL par une distribution contrainte de prendre une certaine forme.q


Je ne peux pas contester cela. Je pense que la plupart des explications, y compris mon propre gloss à ce sujet.
Peadar Coyle
En utilisant notre site, vous reconnaissez avoir lu et compris notre politique liée aux cookies et notre politique de confidentialité.
Licensed under cc by-sa 3.0 with attribution required.