Pourquoi utilisons-nous la divergence de Kullback-Leibler plutôt que l'entropie croisée dans la fonction objectif t-SNE?

Dans mon esprit, la divergence de KL entre la distribution de l'échantillon et la distribution vraie est simplement la différence entre l'entropie croisée et l'entropie.

Pourquoi utilisons-nous l'entropie croisée comme fonction de coût dans de nombreux modèles d'apprentissage automatique, alors que nous utilisons la divergence de Kullback-Leibler dans t-sne? Y a-t-il une différence dans la vitesse d'apprentissage?

kullback-leibler tsne cross-entropy

— JimSpark
source

Voir ici pour quelques intuitions sur KL: stats.stackexchange.com/questions/188903/…

— kjetil b halvorsen le

La divergence de KL est un moyen naturel de mesurer la différence entre deux distributions de probabilité. L'entropie d'une distribution donne le nombre minimum de bits par message qui serait nécessaire (en moyenne) pour coder sans perte les événements tirés de . Pour atteindre cette limite, il faudrait utiliser un code optimal conçu pour , qui attribue des mots de code plus courts aux événements à probabilité plus élevée. peut être interprété comme le nombre attendu de bits supplémentaires par message nécessaire pour coder les événements tirés de la vraie distribution , si un code optimal est utilisé pour la distribution plutôt que $H(p)$ $p$ $p$ $p$ $D_{KL}(p \parallel q)$ $p$ $q$ $p$ . Il a quelques propriétés intéressantes pour comparer les distributions. Par exemple, si et sont égaux, la divergence KL est égale à 0. $p$ $q$

L'entropie croisée peut être interprétée comme le nombre de bits par message nécessaire (en moyenne) pour coder les événements tirés de la distribution vraie , si un code optimal est utilisé pour la distribution . Notez la différence: mesure le nombre moyen de bits supplémentaires par message, alors que mesure le nombre moyen de bits totaux par message. Il est vrai que pour fixé , augmentera à mesure que devient de plus en plus différent de . Mais, si n'est pas maintenu fixe, il est difficile d'interpréter $H(p, q)$ $p$ $q$ $D_{KL}(p \parallel q)$ $H(p, q)$ $p$ $H(p, q)$ $q$ $p$ $p$ $H(p, q)$ comme mesure absolue de la différence, car elle croît avec l'entropie de . $p$

La divergence KL et l'entropie croisée sont liées comme suit:

D_{K L} (p ∥ q) = H (p, q) - H (p)

$D_{KL}(p \parallel q) = H(p, q) - H(p)$

On peut voir dans cette expression que, lorsque et sont égaux, l’entropie croisée n’est pas nulle; c'est plutôt égal à l'entropie de . $p$ $q$ $p$

L'entropie croisée apparaît généralement dans les fonctions de perte dans l'apprentissage automatique. Dans beaucoup de ces situations, est traité comme la «vraie» distribution et comme le modèle que nous essayons d'optimiser. Par exemple, dans les problèmes de classification, la perte d'entropie croisée couramment utilisée (ou perte de log ), mesure l'entropie croisée entre la distribution empirique des étiquettes (compte tenu des entrées) et la distribution prédite par le classifieur. La distribution empirique de chaque point de données attribue simplement la probabilité 1 à la classe de ce point de données et 0 à toutes les autres classes. Note latérale: Dans ce cas, l'entropie croisée s'avère être proportionnelle à la vraisemblance logarithmique négative, donc la minimiser équivaut à maximiser la probabilité. $p$ $q$

Notez que (la distribution empirique dans cet exemple) est fixe. Donc, cela équivaudrait à dire que nous minimisons la divergence de KL entre la distribution empirique et la distribution prévue. Comme nous pouvons le voir dans l'expression ci-dessus, les deux sont liés par le terme additif (l'entropie de la distribution empirique). Puisque est fixe, ne change pas avec les paramètres du modèle et peut être ignoré dans la fonction de perte. Nous pourrions encore vouloir parler de la divergence KL pour des raisons théoriques / philosophiques mais, dans ce cas, elles sont équivalentes du point de vue de la résolution du problème d'optimisation. Cela peut ne pas être vrai pour d'autres utilisations de l'entropie croisée et de la divergence de KL, où $p$ $H(p)$ $p$ $H(p)$ $p$ pourrait varier.

t-SNE adapte une distribution dans l’espace de saisie. Chaque point de données est mappé dans l'espace d'intégration, où la distribution correspondante est ajustée. L'algorithme tente d'ajuster l'intégration pour minimiser . Comme ci-dessus, est tenu fixe. Donc, du point de vue du problème d'optimisation, minimiser la divergence de KL et minimiser l'entropie croisée sont équivalents. En effet, van der Maaten et Hinton (2008) disent dans la section 2: "Une mesure naturelle de la fidélité avec laquelle modélise est la divergence de Kullback-Leibler (qui est cas égal à l'entropie croisée jusqu'à une constante additive) ". $p$ $q$ $D_{KL}(p \parallel q)$ $p$ $q_{j \mid i}$ $p_{j \mid i}$

van der Maaten et Hinton (2008) . Visualisation des données avec t-SNE.

— utilisateur20160
source

Puis-je en quelque sorte "favori" réponses? Je veux sauver celui-ci parce que c'est une très belle explication

— lundi

Merci, content que cela vous soit utile. Vous pouvez marquer une question en tant que favori pour enregistrer l'ensemble du fil de discussion en cliquant sur l'icône représentant une étoile sous les boutons de vote. Vous pouvez afficher votre liste de favoris sur la page de votre compte.

— user20160