Comment fonctionne l'astuce de reparamétrage pour les VAE et pourquoi est-ce important?

57

Comment fonctionne l' astuce de reparamétrage pour les autoencodeurs variationnels (VAE)? Existe-t-il une explication simple et intuitive sans simplifier les calculs sous-jacents? Et pourquoi avons-nous besoin du "truc"?

— David Dao
source

5

Une partie de la réponse consiste à remarquer que toutes les distributions Normal ne sont que des versions mises à l'échelle et traduites de Normal (1, 0). Pour dessiner à partir de Normal (mu, sigma), vous pouvez dessiner à partir de Normal (1, 0), multiplier par sigma (échelle) et ajouter mu (traduire).

— moine

@monk: cela aurait dû être Normal (0,1) au lieu de (1,0) juste sinon la multiplication et le décalage seraient complètement des fils de foin!

— Rika

@Breeze Ha! Oui, bien sûr, merci.

— Moine

57

Après avoir lu les diapositives de l'atelier de Kingma sur les NIPS 2015 , je me suis rendu compte que nous avions besoin de l'astuce de reparamétrage pour pouvoir effectuer une rétro-propagation via un nœud aléatoire.

Intuitivement, sous sa forme initiale, l' échantillon Vaes à partir d' un noeud aléatoire qui est évaluée par le modèle paramétrique de la vraie postérieure. Backprop ne peut pas circuler à travers un nœud aléatoire. $z$ $q(z \mid \phi, x)$

L'introduction d'un nouveau paramètre nous permet de reparamétrer de manière à permettre à backprop de circuler à travers les nœuds déterministes. $\epsilon$ $z$

— David Dao
source

3

Pourquoi

est-il déterministe maintenant à droite?

z

$z$

— bringingdownthegauss

2

Ce n'est pas, mais ce n'est pas une « source de hasard » - ce rôle a été repris par

.

ϵ

$\epsilon$

— quant_dev

Notez que cette méthode a été proposée plusieurs fois avant 2014: blog.shakirm.com/2015/2015/…

— quant_dev

2

Si simple, si intuitif! Très bonne réponse!

— Serhiy

2

Malheureusement, ce n'est pas le cas. La forme originale peut toujours être rétropactable avec une variance plus élevée. Les détails peuvent être trouvés de mon post .

— JP Zhang

56

Supposons que nous ayons une distribution normale paramétrée par , en particulier . Nous voulons résoudre le problème ci-dessous $q$ $\theta$ $q_{\theta}(x) = N(\theta,1)$ Ceci est bien sûr un problème plutôt idiot et le optimalest évident. Cependant, ici, nous voulons simplement comprendre en quoi l’astuce de reparamétrage aide à calculer le gradient de cet objectif .

{min}_{θ} E_{q} [x^{2}]

$\text{min}_{\theta} \quad E_q[x^2]$

θ

$\theta$

E_{q} [x^{2}]

$E_q[x^2]$

$\nabla_{\theta} E_q[x^2]$

\nabla_{θ} E_{q} [x^{2}] = \nabla_{θ} \int q_{θ} (x) x^{2} d x = \int x^{2} \nabla_{θ} q_{θ} (x) \frac{q_{θ} (x)}{q_{θ} (x)} d x = \int q_{θ} (x) \nabla_{θ} \log q_{θ} (x) x^{2} d x = E_{q} [x^{2} \nabla_{θ} \log q_{θ} (x)]

$\nabla_{\theta} E_q[x^2] = \nabla_{\theta} \int q_{\theta}(x) x^2 dx = \int x^2 \nabla_{\theta} q_{\theta}(x) \frac{q_{\theta}(x)}{q_{\theta}(x)} dx = \int q_{\theta}(x) \nabla_{\theta} \log q_{\theta}(x) x^2 dx = E_q[x^2 \nabla_{\theta} \log q_{\theta}(x)]$

$q_{\theta}(x) = N(\theta,1)$

\nabla_{θ} E_{q} [x^{2}] = E_{q} [x^{2} (x - θ)]

$\nabla_{\theta} E_q[x^2] = E_q[x^2 (x-\theta)]$

$\theta$ $q$ $\theta$ $x$

x = θ + ϵ, ϵ \sim N (0, 1)

$x = \theta + \epsilon, \quad \epsilon \sim N(0,1)$

E_{q} [x^{2}] = E_{p} [(θ + ϵ)^{2}]

$E_q[x^2] = E_p[(\theta+\epsilon)^2]$

p

$p$

ϵ

$\epsilon$

N (0, 1)

$N(0,1)$

E_{q} [x^{2}]

$E_q[x^2]$

\nabla_{θ} E_{q} [x^{2}] = \nabla_{θ} E_{p} [(θ + ϵ)^{2}] = E_{p} [2 (θ + ϵ)]

$\nabla_{\theta} E_q[x^2] = \nabla_{\theta} E_p[(\theta+\epsilon)^2] = E_p[2(\theta+\epsilon)]$

Voici un cahier IPython que j’ai écrit et qui examine la variance de ces deux méthodes de calcul des gradients. http://nbviewer.jupyter.org/github/gokererdogan/Notebooks/blob/master/Reparameterization%20Trick.ipynb

— goker
source

4

Quelle est la thêta "évidente" de la première équation?

— gwg

2

c'est 0. une façon de voir cela est de noter que E [x ^ 2] = E [x] ^ 2 + Var (x), qui est thêta ^ 2 + 1 dans ce cas. Donc, thêta = 0 minimise cet objectif.

— Goker

Donc, ça dépend complètement du problème? Pour dire min_ \ theta E_q [| x | ^ (1/4)] cela pourrait être complètement différent?

— Anne van Rossum

Qu'est-ce qui dépend du problème? La thêta optimale? Si oui, cela dépend certainement du problème.

— Goker

\nabla_{θ} E_{q} [x^{2}] = E_{q} [x^{2} (x - θ) q_{θ} (x)]

$\nabla_\theta E_q[x^2] = E_q[x^2 (x-\theta) q_\theta(x)]$

\nabla_{θ} E_{q} [x^{2}] = E_{q} [x^{2} (x - θ)]

$\nabla_\theta E_q[x^2] = E_q[x^2 (x-\theta)]$

17

La réponse de Goker donne un exemple raisonnable des mathématiques de "l'astuce de reparamétrage", mais une certaine motivation pourrait être utile. (Je n'ai pas l'autorisation de commenter cette réponse; voici donc une réponse séparée.)

$G_\theta$

G_{θ} = \nabla_{θ} E_{x \sim q_{θ}} [\dots]

$G_\theta = \nabla_{\theta}E_{x\sim q_\theta}[\ldots]$

$E_{x\sim q_\theta}[G^{est}_\theta(x)]$

G_{θ}^{e s t} (x) = \dots \frac{1}{q_{θ} (x)} \nabla_{θ} q_{θ} (x) = \dots \nabla_{θ} \log (q_{θ} (x))

$G^{est}_\theta(x) = \ldots\frac{1}{q_\theta(x)}\nabla_{\theta}q_\theta(x) = \ldots\nabla_{\theta} \log(q_\theta(x))$

$x$ $q_\theta$ $G^{est}_\theta$ $G_\theta$ $\theta$

$G^{est}_\theta$ $G_\theta$

$G_\theta$ $x$ $x$ $q_\theta(x)$ $\frac{1}{q_\theta(x)}$ $x$ $G_\theta$ $q_\theta$ $G^{est}_\theta$ $x$ $q_\theta$ $\theta$ , qui peut être loin de l’optimum (par exemple, une valeur initiale choisie arbitrairement). Cela ressemble un peu à l’histoire de la personne ivre qui cherche ses clés près du réverbère (car c’est là où il peut voir / échantillonner) plutôt que près de là où il les a laissées.

$x$ $\epsilon$ $p$ $\theta$ $G_\theta$ $p$

G_{θ} = \nabla_{θ} E_{ϵ \sim p} [J (θ, ϵ)] = E_{ϵ \sim p} [\nabla_{θ} J (θ, ϵ)]

$G_\theta = \nabla_\theta E_{\epsilon\sim p}[J(\theta,\epsilon)] = E_{\epsilon\sim p}[ \nabla_\theta J(\theta,\epsilon)]$

J (θ, ϵ)

$J(\theta,\epsilon)$

$\nabla_\theta J(\theta,\epsilon)$ $p$ $\epsilon$ $p$ $\theta$ $p$

$\nabla_\theta J(\theta,\epsilon)$ $G_\theta$ $G_\theta$ $\epsilon$ $p$ $p$ $\epsilon$ $J$

J'espère que ça aide.

— Seth Bruder
source

"Le facteur 1 / qθ (x) augmente votre estimation pour tenir compte de cela, mais si vous ne voyez jamais une telle valeur de x, cette mise à l'échelle ne vous aidera pas." Pouvez-vous expliquer plus?

— czxttkl

q_{θ}

$q_\theta$

x

$x$

x

$x$

G_{θ}^{e s t} (x)

$G_{\theta}^{est}(x)$

1 / q_{θ}

$1/q_\theta$

10

Permettez-moi d’abord d’expliquer pourquoi nous avons besoin d’une astuce de reparamétrage dans VAE.

VAE a encodeur et décodeur. Le décodeur prélève des échantillons au hasard à partir de Z ~ q (z∣ϕ, x) postérieur vrai . Pour implémenter un codeur et un décodeur en tant que réseau de neurones, vous devez effectuer une backpropagation via un échantillonnage aléatoire. Le problème est que backpropogation ne peut pas circuler à travers un nœud aléatoire. pour surmonter cet obstacle, nous utilisons la technique du reparamétrage.

Maintenant, venons à tromper. Puisque notre postérieur est normalement distribué, nous pouvons l'approcher d'une autre distribution normale. Nous approximons Z avec ε normalement distribué .

Mais comment est-ce pertinent?

Maintenant, au lieu de dire que Z est échantillonné à partir de q (z∣ϕ, x) , nous pouvons dire que Z est une fonction qui prend un paramètre (ε, (µ, L)) et que ces µ, L proviennent du réseau neuronal supérieur (codeur). . Par conséquent, tout ce dont nous avons besoin est des dérivées partielles par rapport à µ, L et ε ne sont pas pertinentes pour la prise de dérivés.

— Sherlock
source

Meilleure vidéo pour comprendre ce concept. Je recommanderais de regarder la vidéo complète pour une meilleure compréhension, mais si vous voulez comprendre uniquement le truc du reparamétrage, regardez à partir de 8 minutes. youtube.com/channel/UCNIkB2IeJ-6AmZv7bQ1oBYg

— Sherlock

9

Je pensais que l’explication trouvée dans le cours Stanford CS228 sur les modèles graphiques probabilistes était très bonne. Vous pouvez le trouver ici: https://ermongroup.github.io/cs228-notes/extras/vae/

J'ai résumé / copié les parties importantes ici pour plus de commodité / ma propre compréhension (bien que je recommande fortement de vérifier le lien d'origine).

\nabla_{ϕ} E_{z \sim q (z | x)} [f (x, z)]

$\nabla_\phi \mathbb{E}_{z\sim q(z|x)}[f(x,z)]$

Si vous connaissez les estimateurs de fonction de score (je crois que REINFORCE n'en est qu'un cas particulier), vous remarquerez que c'est en gros le problème qu'ils résolvent. Cependant, l'estimateur de la fonction de score présente une variance élevée, ce qui entraîne souvent des difficultés pour l'apprentissage des modèles.

$q_\phi (z|x)$

$\epsilon$ $p(\epsilon)$ $g_\phi(\epsilon, x)$ $q_\phi$

Par exemple, utilisons un q très simple à partir duquel nous échantillonnons.

z \sim q_{μ, σ} = N (μ, σ)

$z \sim q_{\mu, \sigma} = \mathcal{N}(\mu, \sigma)$

q

$q$

z = g_{μ, σ} (ϵ) = μ + ϵ \cdot σ

$z = g_{\mu, \sigma}(\epsilon) = \mu + \epsilon\cdot\sigma$

ϵ \sim N (0, 1)

$\epsilon \sim \mathcal{N}(0, 1)$

$p(\epsilon)$

\nabla_{ϕ} E_{z \sim q (z | x)} [f (x, z)] = E_{ϵ \sim p (ϵ)} [\nabla_{ϕ} f (x, g (ϵ, x))]

$\nabla_\phi \mathbb{E}_{z\sim q(z|x)}[f(x,z)] = \mathbb{E}_{\epsilon \sim p(\epsilon)}[\nabla_\phi f(x,g(\epsilon, x))]$

Cela a moins de variance, pour des raisons non triviales. Voir la partie D de l'annexe ici pour une explication: https://arxiv.org/pdf/1401.4082.pdf

— il horace
source

Bonjour, savez-vous pourquoi, dans la mise en œuvre, ils divisent la norme par 2? (ie std = torch.exp (z_var / 2)) dans le reparamétrage?

— Rika le

4

Nous avons notre modèle probabiliste. Et voulez récupérer les paramètres du modèle. Nous réduisons notre tâche à l'optimisation de la variation inférieure (VLB). Pour ce faire, nous devrions pouvoir faire deux choses:

calculer VLB
obtenir un gradient de VLB

Les auteurs suggèrent d'utiliser l'estimateur de Monte Carlo pour les deux. Et en fait, ils introduisent cette astuce pour obtenir un estimateur de gradient de Monte Carlo de VLB plus précis.

C'est juste une amélioration de la méthode numérique.

— Anton
source

2

L'astuce de reparamétrage réduit considérablement la variance de l'estimateur MC pour le gradient. C'est donc une technique de réduction de la variance :

\nabla_{ϕ} E_{q (z^{(i)} ∣ x^{(i)}; ϕ)} [\log p (x^{(i)} ∣ z^{(i)}, w)]

$\nabla_\phi \mathbb E_{q(z^{(i)} \mid x^{(i)}; \phi)} \left[ \log p\left( x^{(i)} \mid z^{(i)}, w \right) \right]$

\nabla_{ϕ} E_{q (z^{(i)} ∣ x^{(i)}; ϕ)} [\log p (x^{(i)} ∣ z^{(i)}, w)] = E_{q (z^{(i)} ∣ x^{(i)}; ϕ)} [\log p (x^{(i)} ∣ z^{(i)}, w) \nabla_{ϕ} \log q_{ϕ} (z)]

$\nabla_\phi \mathbb E_{q(z^{(i)} \mid x^{(i)}; \phi)} \left[ \log p\left( x^{(i)} \mid z^{(i)}, w \right) \right] = \mathbb E_{q(z^{(i)} \mid x^{(i)}; \phi)} \left[ \log p\left( x^{(i)} \mid z^{(i)}, w \right) \nabla_\phi \log q_\phi(z)\right]$

p (x^{(i)} ∣ z^{(i)}, w)

$p\left( x^{(i)} \mid z^{(i)}, w \right)$

\log p (x^{(i)} ∣ z^{(i)}, w)

$\log p\left( x^{(i)} \mid z^{(i)}, w \right)$ est très grand et la valeur elle-même est négative. Nous aurions donc une grande variance.

$z^{(i)} = g(\epsilon^{(i)}, x^{(i)}, \phi)$

\nabla_{ϕ} E_{q (z^{(i)} ∣ x^{(i)}; ϕ)} [\log p (x^{(i)} ∣ z^{(i)}, w)] = E_{p (ϵ^{(i)})} [\nabla_{ϕ} \log p (x^{(i)} ∣ g (ϵ^{(i)}, x^{(i)}, ϕ), w)]

$\nabla_\phi \mathbb E_{q(z^{(i)} \mid x^{(i)}; \phi)} \left[ \log p\left( x^{(i)} \mid z^{(i)}, w \right) \right] = \mathbb E_{p(\epsilon^{(i)})} \left[ \nabla_\phi \log p\left( x^{(i)} \mid g(\epsilon^{(i)}, x^{(i)}, \phi), w \right) \right]$

$p(\epsilon^{(i)})$ $p(\epsilon^{(i)})$ $\phi$

$z^{(i)}$ $z^{(i)} = g(\epsilon^{(i)}, x^{(i)}, \phi)$

— chris elgoog
source