Perte KL avec une unité gaussienne

10

J'ai implémenté une VAE et j'ai remarqué deux implémentations différentes en ligne de la divergence gaussienne KL univariée simplifiée. La divergence d' origine que par ici est Si nous supposons que notre a priori est une unité gaussienne, c'est-à-dire et , cela se simplifie jusqu'à Et voici où repose ma confusion. Bien que j'ai trouvé quelques dépôts github obscurs avec l'implémentation ci-dessus, ce que je trouve le plus couramment utilisé est:

K L_{l o s s} = \log (\frac{σ_{2}}{σ_{1}}) + \frac{σ_{1}^{2} + (μ_{1} - μ_{2})^{2}}{2 σ_{2}^{2}} - \frac{1}{2}

$KL_{loss}=\log(\frac{\sigma_2}{\sigma_1})+\frac{\sigma_1^2+(\mu_1-\mu_2)^2}{2\sigma^2_2}-\frac{1}{2}$

μ_{2} = 0

$\mu_2=0$

σ_{2} = 1

$\sigma_2=1$

K L_{l o s s} = - \log (σ_{1}) + \frac{σ_{1}^{2} + μ_{1}^{2}}{2} - \frac{1}{2}

$KL_{loss}=-\log(\sigma_1)+\frac{\sigma_1^2+\mu_1^2}{2}-\frac{1}{2}$

K L_{l o s s} = - \frac{1}{2} (2 \log (σ_{1}) - σ_{1}^{2} - μ_{1}^{2} + 1)

$KL_{loss}=-\frac{1}{2}(2\log(\sigma_1)-\sigma_1^2-\mu_1^2+1)$

= - \frac{1}{2} (\log (σ_{1}) - σ_{1} - μ_{1}^{2} + 1)

$=-\frac{1}{2}(\log(\sigma_1)-\sigma_1-\mu^2_1+1)$ Par exemple dans le tutoriel officiel de l' auto-encodeur Keras . Ma question est alors, qu'est-ce que je manque entre ces deux? La principale différence est de laisser tomber le facteur 2 sur le terme logarithmique et de ne pas mettre la variance au carré. Analytiquement, j'ai utilisé cette dernière avec succès, pour ce qu'elle vaut. Merci d'avance pour votre aide!

— groovyDragon
source

7

Notez qu'en remplaçant par dans la dernière équation, vous récupérez la précédente (c.-à-d. ). Cela m'amène à penser que dans le premier cas, l'encodeur est utilisé pour prédire la variance, tandis que dans le second, il est utilisé pour prédire l'écart type. $\sigma_1$ $\sigma_1^2$ $\log(\sigma_1) - \sigma_1 \rightarrow 2\log(\sigma_1) - \sigma_1^2$

Les deux formulations sont équivalentes et l'objectif est inchangé.

— F. Evlangeli
source

Je ne pense pas qu'il puisse être le cas que ceux-ci sont équivalents. Oui, ils sont tous deux minimisés quand pour zéro et unit . Cependant, dans l'équation originale (présentant la variance), la pénalité pour éloigner de l'unité est beaucoup plus grande que dans la deuxième équation (basée sur l'écart type). La pénalité pour les variations de est la même pour les deux, et l'erreur de reconstruction serait la même, donc l'utilisation de la deuxième version change considérablement l'importance relative des écarts de rapport à l'unité. Qu'est-ce que je rate?

μ

$\mu$

σ

$\sigma$

σ

$\sigma$

μ

$\mu$

σ

$\sigma$

— TheBamf

0

Je pense que la réponse est plus simple. Dans la VAE, les gens utilisent généralement une distribution normale multivariée, qui a une matrice de covariance au lieu de variance . Cela semble déroutant dans un morceau de code mais a la forme souhaitée. $\Sigma$ $\sigma^2$

Ici vous pouvez trouver la dérivation d'une divergence KL pour les distributions normales multivariées: Dériver la perte de divergence KL pour les VAE

— Dmitry Grebenyuk
source