Pourquoi l'entropie croisée est-elle devenue la fonction de perte standard de classification et non la divergence de Kullbeck Leibler?

15

L'entropie croisée est identique à la divergence KL plus l'entropie de la distribution cible. KL est égal à zéro lorsque les deux distributions sont identiques, ce qui me semble plus intuitif que l'entropie de la distribution cible, qui correspond à l'entropie croisée sur une correspondance.

Je ne dis pas qu'il y a plus d'informations dans l'autre, sauf qu'une vue humaine peut trouver un zéro plus intuitif qu'un positif. Bien sûr, on utilise généralement une méthode d'évaluation pour vraiment voir à quel point la classification se produit. Mais le choix de l'entropie croisée sur KL est-il historique?

machine-learning classification

— Josh Albert
source

12

En ce qui concerne les problèmes de classification dans l'apprentissage automatique, l'entropie croisée et la divergence KL sont égales . Comme déjà indiqué dans la question, la formule générale est la suivante:

H (p, q) = H (p) + D_{K L} (p | | q)

$H(p, q) = H(p) + D_{KL}(p||q)$

Où $p$ une distribution «vraie» et $q$ est une distribution estimée, $H(p, q)$ est l'entropie croisée, $H(p)$ est l'entropie et $D$ est la divergence de Kullback-Leibler.

Notez que dans l'apprentissage automatique, $p$ est une représentation à chaud de la classe de vérité fondamentale, c'est-à-dire,

p = [0, . . ., 1, . . ., 0]

$p = [0,..., 1, ..., 0]$

qui est essentiellement une distribution delta-fonction . Mais l'entropie de la fonction delta est nulle, donc la divergence KL est simplement égale à l'entropie croisée.

En fait, même si $H(p)$ n'était pas $0$ (par exemple, les étiquettes souples), il est fixe et n'a aucune contribution au gradient. En termes d'optimisation, il est sûr de simplement le supprimer et d'optimiser la divergence Kullback-Leibler.

— Maxime
source

0

L'entropie croisée est une entropie, pas une différence d'entropie.

Une façon plus naturelle et peut-être intuitive de conceptualiser les critères de catégorisation consiste à utiliser une relation plutôt qu'une définition.

$H(P, Q) - H(P) = D_{\mathrm{KL}}(P\|Q) = - \sum_i P(i) \log\frac{Q(i)}{P(i)}$

Cela fait suite à des parallèles, identifiés par Claude Shannon avec John von Neumann, entre la thermodynamique mécanique quantique et la théorie de l'information. L'entropie n'est pas une quantité absolue. Il s'agit d'un relatif, donc ni l'entropie ni l'entropie croisée ne peuvent être calculées, mais leur différence peut être pour le cas discret ci-dessus ou son frère continu ci-dessous.

$H(P, Q) - H(P) = D_{\mathrm{KL}}(P\|Q) = - \int_{-\infty}^\infty \, p(x) \log\frac {q(x)} {p(x)} \, dx$

$H(...) = ...$ dans la littérature, sans H '(...) à droite de l'équation, il n'est pas techniquement exact. Dans de tels cas, il y a toujours une entropie implicite à laquelle l'entropie du côté gauche est relative.

— FauChristian
source