Tout d’abord, la violation de la condition de symétrie est le plus petit problème de la divergence de Kullback-Leibler. viole également l'inégalité des triangles. Vous pouvez simplement introduire la version symétrique sous la forme , mais ce n'est toujours pas métrique, car et viole l'inégalité des triangles. Prouver que nous prenons simplement trois pièces biaisées A, B et C qui produisent beaucoup moins de têtes que de queues, par exemple des pièces avec une probabilité de têtes de: A = 0,1, B = 0,2 et C = 0,3. Dans les deux cas, la divergence D régulière KL ou sa version symétrique SKL, vérifiez qu’elles ne remplissent pas l’inégalité du triangle
D(P||Q)
SKL(P,Q)=D(P||Q)+D(Q||P)
D(P||Q)SKL(P,Q)D(A||B)+D(B||C)D(A||C)
SKL(A,B)+SKL(B,C)SKL(A,C)
Utilisez simplement ces formules:
D(P||Q)=∑ipi⋅log(piqi)
SKL(P,Q)=∑i(pi−qi)⋅log(piqi)
D(A||B)=0.1⋅log(0.10.2)+0.9⋅log(0.90.8)≈0.0159
D(B||C)≈0.0112
D(A||C)≈0.0505
0.0159+0.01120.0505
SKL(A,B)≈0.0352
SKL(B,C)≈0.0234
SKL(A,C)≈0.1173
0.0352+0.02340.1173
J'ai introduit cet exemple dans le but. Imaginons que vous jetiez des pièces, par exemple 100 fois. Tant que ces pièces sont non biaisées, vous encoderiez simplement les résultats du lancer avec une séquence de 0-1 bits (1 tête, 0 queue). Dans une telle situation, lorsque la probabilité de la tête est la même que la probabilité de la queue et égale à 0,5, le codage est très efficace. Maintenant, nous avons quelques pièces biaisées, nous préférerions donc coder des résultats plus probables avec un code plus court, par exemple fusionner des groupes de têtes et de queues et représenter des séquences de k têtes avec un code plus long que la séquence de k queues (elles sont plus probables). Et ici, la divergence de Kullback-Leibler . Si P représente la vraie distribution des résultats et que Q n’est qu’une approximation de P, alorsD(P||Q)D(P||Q) indique la pénalité que vous payez lorsque vous codez des résultats qui proviennent en réalité de P distrib avec un codage destiné à Q (pénalité au sens des bits supplémentaires que vous devez utiliser).
Si vous avez simplement besoin d'une métrique, utilisez la distance de Bhattacharyya (bien sûr, la version modifiée )1−[∑xp(x)q(x)−−−−−−−√]−−−−−−−−−−−−−−−√