La divergence de Kullback-Leibler n'est pas une métrique proprement dite, car elle n'est pas symétrique et aussi, elle ne satisfait pas l'inégalité du triangle. Les «rôles» joués par les deux distributions sont donc différents, et il est important de répartir ces rôles en fonction du phénomène réel étudié.
Lorsque nous écrivons (l'OP a calculé l'expression en utilisant des logarithmes en base 2)
K(P||Q)=∑ilog2(pi/qi)pi
nous considérons la distribution comme la "distribution cible" (généralement considérée comme la vraie distribution), que nous approximons en utilisant la distribution Q.PQ
Maintenant,
∑ilog2(pi/qi)pi=∑ilog2(pi)pi−∑ilog2(qi)pi=−H(P)−EP(ln(Q))
où est l'entropie de Shannon de la distribution P et - E P ( ln ( Q ) ) est appelée «entropie croisée de P et Q » - également non symétrique.H(P)P−EP(ln(Q))PQ
L'écriture
K(P||Q)=H(P,Q)−H(P)
P
Donc, non , la divergence KL vaut mieux ne pas être interprétée comme une "mesure de distance" entre les distributions, mais plutôt comme une mesure d'augmentation d'entropie en raison de l'utilisation d'une approximation de la vraie distribution plutôt que de la vraie distribution elle-même .
Nous sommes donc en terre de théorie de l'information. Pour l'entendre des maîtres (Cover & Thomas) "
PH(P)QH(P)+K(P||Q)
Les mêmes sages disent
... ce n'est pas une vraie distance entre les distributions car elle n'est pas symétrique et ne satisfait pas l'inégalité du triangle. Néanmoins, il est souvent utile de considérer l'entropie relative comme une «distance» entre les distributions.
Mais cette dernière approche est utile surtout quand on essaie de minimiser divergence KL afin d'optimiser certaines procédures d'estimation. Pour l'interprétation de sa valeur numérique en tant que telle , elle n'est pas utile, et on devrait préférer l'approche "augmentation d'entropie".
Pour les distributions spécifiques de la question (toujours en utilisant des logarithmes en base 2)
K ( P| | Q)=0,49282,H( P) = 1,9486
En d'autres termes, vous avez besoin de 25% de bits supplémentaires pour décrire la situation si vous allez utiliser Q tandis que la vraie distribution est P. Cela signifie des lignes de code plus longues, plus de temps pour les écrire, plus de mémoire, plus de temps pour les lire, une plus grande probabilité d'erreurs etc ... ce n'est pas un hasard si Cover & Thomas disent que KL-Divergence (ou "entropie relative") " mesure l' inefficacité causée par le rapprochement. "