Voici comment j'y pense:
DKL(p(yi|xi)||q(yi|xi,θ))=H(p(yi|xi,θ),q(yi|xi,θ))−H(p(yi|xi,θ))(1)
où et sont deux distributions de probabilité. En apprentissage automatique, nous connaissons généralement , qui est la distribution de la cible. Par exemple, dans un problème de classification binaire, , donc si , et , et vice versa. Étant donné chaque , où est le nombre total de points dans l'ensemble de données, nous voulons généralement minimiser la divergence KL entre la distribution de la cible et notre distribution préditepqpY={0,1}yi=1p(yi=1|x)=1p(yi=0|x)=0yi∀i=1,2,…,NNDKL(p,q)p(yi|x)q(yi|x,θ), moyenne sur tout . (Nous le faisons en ajustant nos paramètres de modèle . Ainsi, pour chaque exemple d'apprentissage, le modèle crache une distribution sur les étiquettes de classe et ) Pour chaque exemple, puisque la cible est fixe, sa distribution ne change jamais. Ainsi, est constant pour chaque , quels que soient nos paramètres de modèle actuels . Ainsi, le minimiseur de est égal au minimiseur de .iθ01H(p(yi|xi))iθDKL(p,q)H(p,q)
Si vous aviez une situation où et étaient tous deux variables (par exemple, dans lesquels et étaient deux variables latentes) et que vous vouliez faire correspondre les deux distributions, alors vous devriez choisir entre minimiser et minimisant . En effet, minimiser implique maximiser tandis que minimiser implique minimiser . Pour voir ce dernier, nous pouvons résoudre l'équation ( ) pour :
pqx1∼px2∼qDKLH(p,q)DKLH(p)H(p,q)H(p)1H(p,q)H(p,q)=DKL(p,q)+H(p)(2)
Le premier donnerait une distribution large pour tandis que le second en produirait une qui est concentrée dans un ou quelques modes. Notez que c'est votre choix en tant que praticien ML que vous souhaitiez minimiser ou . Une petite discussion de ceci est donnée dans le contexte de l'inférence variationnelle (VI) ci-dessous.pDKL(p,q)DKL(q,p)
Dans VI, vous devez choisir entre minimiser et , qui ne sont pas égaux car la divergence KL n'est pas symétrique. Si nous traitons à nouveau comme connu, alors minimiser entraînerait une distribution qui est nette et focalisée sur une ou quelques zones tout en minimisant résulterait dans une distribution qui est large et couvre une large gamme du domaine de . Encore une fois, ce dernier est parce que minimiser implique de maximiser l'entropie de .DKL(p,q)DKL(q,p)pDKL(p,q)qDKL(q,p)qqDKL(q,p)q