Sans citer de sources, Wikipedia définit l'entropie croisée des distributions discrètes et Q comme
Qui a été le premier à commencer à utiliser cette quantité? Et qui a inventé ce terme? J'ai regardé:
JE Shore et RW Johnson, «Dérivation axiomatique du principe de l'entropie maximale et du principe de l'entropie croisée minimale», Information Theory, IEEE Transactions on, vol. 26, non. 1, p. 26-37, janvier 1980.
J'ai suivi leur introduction à
A. Wehrl, «Propriétés générales de l'entropie», Reviews of Modern Physics, vol. 50, non. 2, p. 221-260, avril 1978.
qui n'utilise jamais le terme.
Pas plus
S. Kullback et R. Leibler, «On information and sufficiency», The Annals of Mathematical Statistics, vol. 22, non. 1, p. 79-86, 1951.
J'ai regardé dedans
TM Cover et JA Thomas, Elements of Information Theory (Série Wiley en télécommunications et traitement du signal). Wiley-Interscience, 2006.
et
I. Bon, "Entropie maximale pour la formulation d'hypothèses, en particulier pour les tableaux de contingence multidimensionnelle", The Annals of Mathematical Statistics, vol. 34, non. 3, p. 911-934, 1963.
mais les deux articles définissent l'entropie croisée comme synonyme de divergence KL.
Le papier d'origine
CE Shannon, «Une théorie mathématique de la communication», journal technique du système Bell, vol. 27, 1948.
Ne mentionne pas l'entropie croisée (et a une étrange définition d '"entropie relative": "Le rapport de l'entropie d'une source à la valeur maximale qu'elle pourrait avoir tout en restant limité aux mêmes symboles").
Enfin, j'ai regardé dans de vieux livres et papiers de Tribus.
Est-ce que quelqu'un sait comment s'appelle l'équation ci-dessus et qui l'a inventée ou en a une belle présentation?