Définition et origine de «l'entropie croisée»


15

Sans citer de sources, Wikipedia définit l'entropie croisée des distributions discrètes et Q commePQ

H×(P;Q)=-Xp(X)Journalq(X).

Qui a été le premier à commencer à utiliser cette quantité? Et qui a inventé ce terme? J'ai regardé:

JE Shore et RW Johnson, «Dérivation axiomatique du principe de l'entropie maximale et du principe de l'entropie croisée minimale», Information Theory, IEEE Transactions on, vol. 26, non. 1, p. 26-37, janvier 1980.

J'ai suivi leur introduction à

A. Wehrl, «Propriétés générales de l'entropie», Reviews of Modern Physics, vol. 50, non. 2, p. 221-260, avril 1978.

qui n'utilise jamais le terme.

Pas plus

S. Kullback et R. Leibler, «On information and sufficiency», The Annals of Mathematical Statistics, vol. 22, non. 1, p. 79-86, 1951.

J'ai regardé dedans

TM Cover et JA Thomas, Elements of Information Theory (Série Wiley en télécommunications et traitement du signal). Wiley-Interscience, 2006.

et

I. Bon, "Entropie maximale pour la formulation d'hypothèses, en particulier pour les tableaux de contingence multidimensionnelle", The Annals of Mathematical Statistics, vol. 34, non. 3, p. 911-934, 1963.

mais les deux articles définissent l'entropie croisée comme synonyme de divergence KL.

Le papier d'origine

CE Shannon, «Une théorie mathématique de la communication», journal technique du système Bell, vol. 27, 1948.

Ne mentionne pas l'entropie croisée (et a une étrange définition d '"entropie relative": "Le rapport de l'entropie d'une source à la valeur maximale qu'elle pourrait avoir tout en restant limité aux mêmes symboles").

Enfin, j'ai regardé dans de vieux livres et papiers de Tribus.

Est-ce que quelqu'un sait comment s'appelle l'équation ci-dessus et qui l'a inventée ou en a une belle présentation?

Réponses:


7

je1:2(E)2.2-2.4

ÉDITER:

D'autres alias incluent la mesure d'information de Kullback-Leibler, la mesure d'information relative, l'entropie croisée, la divergence en I et l' inexactitude de Kerridge .


Merci! J'ai vérifié ces références, mais j'ai toujours du mal à trouver le terme «entropie croisée» ou une équation correspondante. Veuillez me faire savoir si vous en avez vu un dans l'un des articles ou des livres.
Neil G

1
Vous pouvez également rechercher en arrière dans Google scholar des articles avec différents alias publiés jusqu'à une certaine année (par exemple, l' entropie croisée jusqu'en 1980 ).
Itamar

1
Concernant votre montage récent, je suis intéressé par l'historique du formulaire donné dans ma question. J'ai déjà remarqué que les premiers articles utilisaient "entropie croisée" pour signifier "divergence KL". (Notez que le papier Kullback est dans ma question.)
Neil G

Désolé, j'ai raté le papier Kullback dans la question
Itamar

4

Grâce à la suggestion de @ Itamar, j'ai trouvé une mention dans:

IJ Good, "Quelques terminologies et notations dans la théorie de l'information", Actes de l'IEE - Partie C: Monographies, vol. 103, non. 3, p. 200-204, mars 1956.

Il serait encore très utile pour moi de trouver une belle présentation de l'entropie croisée.


2

Merci pour cela - bon résumé de la documentation de base. L'article de Shore et Johnson de 1980 dans IEEE est un bon début, mais le pointeur de @ itamar vers la bonne monographie de 1956 est encore meilleur. Le concept semble provenir du travail de Shannon, la note AMS de Kullback & Leibler de 1951 étant à l'origine de l'utilisation actuelle du terme. Dans la mesure où l'origine du terme «entropie croisée» se rapporte aux réseaux de neurones artificiels, il existe un terme utilisé dans un article de Science, soumis en 1994, publié en 1995, par GE Hinton, P. Dayan, BJ Frey et RM Neal, dans qui utilise très tôt le terme "machine Hemholtz" - peut-être le premier. URL pour copie: http://elderlab.yorku.ca/~elder/teaching/cosc6390psyc6225/readings/hinton%201995.pdf Dans cet article, "L'algorithme de veille-sommeil pour les réseaux de neurones non supervisés", la note précédant l'équation # 5 dit: "Lorsqu'il existe de nombreuses autres façons de décrire un vecteur d'entrée, il est possible de concevoir un schéma de codage stochastique qui tire parti de la entropie entre les descriptions alternatives [1]. Le coût est alors: "(voir l'article pour l'équation # 5)" Le deuxième terme est alors l'entropie de la distribution que les poids de reconnaissance attribuent aux différentes représentations alternatives. " Plus loin dans l'article, l'eqn # 5 est réécrit en eqn # 8, le dernier terme étant décrit comme la divergence de Kullback-Leibler entre la distribution de probabilité initiale et la distribution de probabilité postérieure. L'article indique: "Donc, pour deux modèles génératifs qui attribuent une probabilité égale à d, ) Cet article décrit toujours le processus de minimisation pour cet algorithme spécifique comme minimisant la divergence de Kullback-Leibler, mais il semble que ce pourrait être là où le terme «entropie entre les descriptions alternatives» a été raccourci en «entropie croisée». Pour un exemple numérique d'entropie croisée, en utilisant TensorFlow, voir la publication ici, il est utile: ) Cet article décrit toujours le processus de minimisation pour cet algorithme spécifique comme minimisant la divergence de Kullback-Leibler, mais il semble que ce pourrait être là où le terme «entropie entre les descriptions alternatives» a été raccourci en «entropie croisée». Pour un exemple numérique d'entropie croisée, en utilisant TensorFlow, voir la publication ici, il est utile: /programming/41990250/what-is-cross-entropy Notez que la solution de CE = 0,47965 est dérivée simplement en prenant le logarithme naturel de la probabilité 0,619. Dans l'exemple ci-dessus, l'utilisation du codage "un à chaud" signifie que les deux autres probabilités initiales et postérieures sont ignorées en raison de la multiplication par la probabilité initiale à valeur nulle, dans la somme pour l'entropie croisée.


+1 Cela pourrait être exact. Donc, vous dites que 1994 est à l'origine de la définition moderne de l'entropie croisée?
Neil G
En utilisant notre site, vous reconnaissez avoir lu et compris notre politique liée aux cookies et notre politique de confidentialité.
Licensed under cc by-sa 3.0 with attribution required.