Perplexité et entropie croisée pour les modèles n-gram


10

Essayer de comprendre la relation entre l'entropie croisée et la perplexité. En général pour un modèle M , Perplexité (M) = 2 ^ entropie (M) . Cette relation est-elle valable pour tous les n-grammes différents, c'est-à-dire unigramme, bigramme, etc.?


C'est en fait la définition de la perplexité; la dérive;)Πi=1N1P(wi|w1,...wi1)N
WavesWashSands

Réponses:


9

Oui, la perplexité est toujours égale à deux à la puissance de l'entropie. Peu importe le type de modèle que vous possédez, n-gramme, unigramme ou réseau de neurones.

Il y a quelques raisons pour lesquelles le langage modélise les gens comme la perplexité au lieu d'utiliser simplement l'entropie. La première est que, en raison de l'exposant, les améliorations de la perplexité "semblent" être plus importantes que l'amélioration équivalente de l'entropie. Un autre est qu'avant de commencer à utiliser la perplexité, la complexité d'un modèle de langage a été signalée à l'aide d'une mesure de facteur de ramification simpliste qui est plus similaire à la perplexité qu'à l'entropie.


1

D'accord avec la réponse @Aaron avec une légère modification:

Ce n'est pas toujours égal à deux à la puissance de l'entropie. En fait, ce sera (base pour log) au pouvoir de l'entropie. Si vous avez utilisé e comme base, ce serait e ^ entropie.

En utilisant notre site, vous reconnaissez avoir lu et compris notre politique liée aux cookies et notre politique de confidentialité.
Licensed under cc by-sa 3.0 with attribution required.