Analyse de la divergence Kullback-Leibler

18

Considérons les deux distributions de probabilité suivantes

P       Q
0.01    0.002
0.02    0.004
0.03    0.006
0.04    0.008
0.05    0.01
0.06    0.012
0.07    0.014
0.08    0.016
0.64    0.928

J'ai calculé la divergence Kullback-Leibler qui est égale à , je veux savoir en général ce que ce nombre me montre? En général, la divergence de Kullback-Leibler me montre à quelle distance est une distribution de probabilité d'une autre, non? Elle est similaire à la terminologie entropique, mais en termes de nombres, qu'est-ce que cela signifie? Si j'ai un résultat de résultat de 0,49, puis-je dire qu'environ une distribution est loin d'une autre de 50%? $0.492820258$

interpretation information-theory kullback-leibler

— dato datuashvili
source

Voir la discussion ici qui peut être utile.

— Glen_b -Reinstate Monica

Avez-vous lu l'article wikipedia?

— Neil G

42

La divergence de Kullback-Leibler n'est pas une métrique proprement dite, car elle n'est pas symétrique et aussi, elle ne satisfait pas l'inégalité du triangle. Les «rôles» joués par les deux distributions sont donc différents, et il est important de répartir ces rôles en fonction du phénomène réel étudié.

Lorsque nous écrivons (l'OP a calculé l'expression en utilisant des logarithmes en base 2)

K (P | | Q) = \sum_{i} \log_{2} (p_{i} / q_{i}) p_{i}

$\mathbb K\left(P||Q\right) = \sum_{i}\log_2 (p_i/q_i)p_i$

nous considérons la distribution comme la "distribution cible" (généralement considérée comme la vraie distribution), que nous approximons en utilisant la distribution $P$ $Q$

Maintenant,

\sum_{i} \log_{2} (p_{i} / q_{i}) p_{i} = \sum_{i} \log_{2} (p_{i}) p_{i} - \sum_{i} \log_{2} (q_{i}) p_{i} = - H (P) - E_{P} (\ln (Q))

$\sum_{i}\log_2 (p_i/q_i)p_i = \sum_{i}\log_2 (p_i)p_i-\sum_{i}\log_2 (q_i)p_i = -H(P) - E_P(\ln(Q))$

où est l'entropie de Shannon de la distribution et est appelée «entropie croisée de et » - également non symétrique. $H(P)$ $P$ $-E_P(\ln(Q))$ $P$ $Q$

L'écriture

K (P | | Q) = H (P, Q) - H (P)

$\mathbb K\left(P||Q\right) = H(P,Q) - H(P)$

$P$

Donc, non , la divergence KL vaut mieux ne pas être interprétée comme une "mesure de distance" entre les distributions, mais plutôt comme une mesure d'augmentation d'entropie en raison de l'utilisation d'une approximation de la vraie distribution plutôt que de la vraie distribution elle-même .

Nous sommes donc en terre de théorie de l'information. Pour l'entendre des maîtres (Cover & Thomas) "

$P$ $H(P)$ $Q$ $H(P) + \mathbb K (P||Q)$

Les mêmes sages disent

... ce n'est pas une vraie distance entre les distributions car elle n'est pas symétrique et ne satisfait pas l'inégalité du triangle. Néanmoins, il est souvent utile de considérer l'entropie relative comme une «distance» entre les distributions.

Mais cette dernière approche est utile surtout quand on essaie de minimiser divergence KL afin d'optimiser certaines procédures d'estimation. Pour l'interprétation de sa valeur numérique en tant que telle , elle n'est pas utile, et on devrait préférer l'approche "augmentation d'entropie".

Pour les distributions spécifiques de la question (toujours en utilisant des logarithmes en base 2)

K (P | | Q) = 0,49282, H (P) = 1,9486

$\mathbb K\left(P||Q\right) = 0.49282,\;\;\;\; H(P) = 1.9486$

En d'autres termes, vous avez besoin de 25% de bits supplémentaires pour décrire la situation si vous allez utiliser $Q$ tandis que la vraie distribution est $P$ . Cela signifie des lignes de code plus longues, plus de temps pour les écrire, plus de mémoire, plus de temps pour les lire, une plus grande probabilité d'erreurs etc ... ce n'est pas un hasard si Cover & Thomas disent que KL-Divergence (ou "entropie relative") " mesure l' inefficacité causée par le rapprochement. "

— Alecos Papadopoulos
source

Réponse extrêmement utile et informative.

— MadHatter

1

KL Divergence mesure la perte d'informations requise pour représenter un symbole de P à l'aide de symboles de Q. Si vous avez une valeur de 0,49, cela signifie qu'en moyenne, vous pouvez coder deux symboles de P avec les deux symboles correspondants de Q plus un bit d'informations supplémentaires .

— Aaron
source

1

Considérez une source d'information avec distribution $P$ qui est encodé en utilisant le code idéal pour une source d'information avec distribution $Q$ . Le coût d'encodage supplémentaire supérieur au coût d'encodage minimum qui aurait été atteint en utilisant le code idéal pour $P$ est la divergence KL .

— Neil G
source