L'entropie croisée est identique à la divergence KL plus l'entropie de la distribution cible. KL est égal à zéro lorsque les deux distributions sont identiques, ce qui me semble plus intuitif que l'entropie de la distribution cible, qui correspond à l'entropie croisée sur une correspondance.
Je ne dis pas qu'il y a plus d'informations dans l'autre, sauf qu'une vue humaine peut trouver un zéro plus intuitif qu'un positif. Bien sûr, on utilise généralement une méthode d'évaluation pour vraiment voir à quel point la classification se produit. Mais le choix de l'entropie croisée sur KL est-il historique?