Une adaptation de la distance Kullback-Leibler?

28

Regarde cette image: entrez la description de l'image ici

Si nous tirons un échantillon de la densité rouge, alors certaines valeurs devraient être inférieures à 0,25 alors qu'il est impossible de générer un tel échantillon à partir de la distribution bleue. Par conséquent, la distance de Kullback-Leibler de la densité rouge à la densité bleue est infinie. Cependant, les deux courbes ne sont pas si distinctes, dans un certain "sens naturel".

Voici ma question: existe-t-il une adaptation de la distance Kullback-Leibler qui permettrait une distance finie entre ces deux courbes?

kullback-leibler

— ocram
source

1

Dans quel "sens naturel" ces courbes "ne sont-elles pas si distinctes"? Comment cette proximité intuitive est-elle liée à une propriété statistique? (Je peux penser à plusieurs réponses mais je me demande ce que vous avez en tête.)

— whuber

1

Eh bien ... ils sont assez proches les uns des autres dans le sens où les deux sont définis sur des valeurs positives; ils augmentent et diminuent tous les deux; les deux ont en fait la même attente; et la distance de Kullback Leibler est "petite" si nous nous limitons à une partie de l'axe des x ... Mais pour relier ces notions intuitives à toute propriété statistique, j'aurais besoin d'une définition rigoureuse de ces caractéristiques ...

— ocram

en.wikipedia.org/wiki/Statistical_distance

— Memming

18

Vous pouvez consulter le chapitre 3 de Devroye, Gyorfi et Lugosi, A Probabilistic Theory of Pattern Recognition , Springer, 1996. Voir, en particulier, la section sur les divergences. $f$

divergences peuvent être considérées comme une généralisation de Kullback - Leibler (ou, alternativement, KL peut être considéré comme un cas particulier d'une divergence). $f$ $f$

La forme générale est

D_{f} (p, q) = \int q (x) f (\frac{p (x)}{q (x)}) λ (d x),

$D_f(p, q) = \int q(x) f\left(\frac{p(x)}{q(x)}\right) \, \lambda(dx) ,$

où est une mesure qui domine les mesures associées à et et est une fonction convexe satisfaisant . (Si et sont des densités par rapport à la mesure de Lebesgue, remplacez simplement la notation par et vous êtes prêt à partir.) $\lambda$ $p$ $q$ $f(\cdot)$ $f(1) = 0$ $p(x)$ $q(x)$ $dx$ $\lambda(dx)$

On récupère KL en prenant . On peut obtenir la différence Hellinger via $f(x) = x \log x$ et on obtient lavariation totaleoudistanceen prenant $f(x) = (1 - \sqrt{x})^2$ $L_1$ . Ce dernier donne $f(x) = \frac{1}{2} |x - 1|$

D_{T V} (p, q) = \frac{1}{2} \int | p (x) - q (x) | d x

$D_{\mathrm{TV}}(p, q) = \frac{1}{2} \int |p(x) - q(x)| \, dx$

Notez que ce dernier vous donne au moins une réponse finie.

Dans un autre petit livre intitulé Density Estimation: The View $L_1$ , Devroye plaide fortement pour l'utilisation de cette dernière distance en raison de ses nombreuses propriétés d'invariance (entre autres). Ce dernier livre est probablement un peu plus difficile à obtenir que le premier et, comme son titre l'indique, un peu plus spécialisé.

Addendum : via cette question , j'ai pris conscience qu'il apparaît que la mesure proposée par @Didier est (jusqu'à une constante) connue sous le nom de divergence Jensen-Shannon. Si vous suivez le lien vers la réponse fournie dans cette question, vous verrez qu'il s'avère que la racine carrée de cette quantité est en fait une métrique et a été précédemment reconnue dans la littérature comme étant un cas spécial de divergence . J'ai trouvé intéressant que nous semblions avoir collectivement «réinventé» la roue (assez rapidement) via la discussion de cette question. L'interprétation que je lui ai donnée dans le commentaire ci-dessous @ la réponse de Didier a également été précédemment reconnue. Tout autour, plutôt bien, en fait. $f$

— cardinal
source

1

Très agréable! Je vais essayer de trouver "Une théorie probabiliste de la reconnaissance des formes" et d'en comprendre le chapitre 3!

— ocram

1

bonne réponse, notons que le plus souvent

est défini d'une autre manière ce qui fait la moitié de la distance

.

D_{T V}

$D_{TV}$

L_{1}

$L_1$

— robin girard

1

@robin, merci pour votre commentaire. Oui, je m'en rends compte. J'essayais juste d'éviter une constante étrangère désordonnée dans l'exposition. Mais à strictement parler, vous avez raison. Je l'ai mis à jour en conséquence.

— Cardinal

3

Votre addendum est jusqu'à présent l'élément d'information le plus utile que j'ai rencontré sur stats.SE. Tous mes remerciements les plus chaleureux pour cela. Je reproduis simplement ici la référence que vous avez donnée: research-repository.st-andrews.ac.uk/bitstream/10023/1591/1/… Endres et Schindelin, Une nouvelle métrique pour les distributions de probabilité, IEEE Trans. sur Info. Tes. , vol. 49, non. 3, juil.2003, p. 1858-1860.

— A fait

1

@Didier, eh bien, c'était plus un heureux accident qu'autre chose. Personne ne répondait à l'autre question, alors j'ai décidé d'essayer de comprendre quelle était la divergence Jensen-Shannon en premier lieu. Une fois que j'ai trouvé la définition, il m'a semblé raisonnable de relier les deux questions via mon addendum. Je suis content que vous l'ayez trouvé utile. Cordialement.

— Cardinal

19

La divergence Kullback-Leibler de par rapport à est infinie lorsque n'est pas absolument continue par rapport à , c'est-à-dire lorsqu'il existe un ensemble mesurable tel que et . De plus la divergence KL n'est pas symétrique, en ce sens qu'en général $\kappa(P|Q)$ $P$ $Q$ $P$ $Q$ $A$ $Q(A)=0$ $P(A)\ne0$ . Rappelons que $\kappa(P\mid Q)\ne\kappa(Q\mid P)$ Un moyen de sortir de ces deux inconvénients, toujours basé sur la divergence KL, est d'introduire le point milieu

κ (P ∣ Q) = \int P \log (\frac{P}{Q}) .

$\kappa(P\mid Q)=\int P\log\left(\frac{P}{Q}\right).$

Ainsi

est une mesure de probabilité, et

et

sont toujours absolument continue par rapport à

. On peut donc considérer une "distance" entre

et

, toujours basée sur la divergence KL mais en utilisant

, définie comme

Alors

R = \frac{1}{2} (P + Q) .

$R=\tfrac12(P+Q).$

R

$R$

P

$P$

Q

$Q$

R

$R$

P

$P$

Q

$Q$

R

$R$

η (P, Q) = κ (P ∣ R) + κ (Q ∣ R) .

$\eta(P,Q)=\kappa(P\mid R)+\kappa(Q\mid R).$

est non négatif et fini pour tout

et

,

est symétrique dans le sens où

pour chaque

et

, et

siff

.

η (P, Q)

$\eta(P,Q)$

P

$P$

Q

$Q$

η

$\eta$

η (P, Q) = η (Q, P)

$\eta(P,Q)=\eta(Q,P)$

P

$P$

Q

$Q$

η (P, Q) = 0

$\eta(P,Q)=0$

P = Q

$P=Q$

Une formulation équivalente est

η (P, Q) = 2 \log (2) + \int (P \log (P) + Q \log (Q) - (P + Q) \log (P + Q)) .

$\eta(P,Q)=2\log(2)+\int \left(P\log(P)+Q\log(Q)-(P+Q)\log(P+Q)\right).$

Addendum 1 L'introduction du point milieu de et n'est pas arbitraire dans le sens où où le minimum est supérieur à l'ensemble de mesures de probabilité. $P$ $Q$

η (P, Q) = min [κ (P ∣ \cdot) + κ (Q ∣ \cdot)],

$\eta(P,Q)=\min [\kappa(P\mid \cdot)+\kappa(Q\mid \cdot)],$

Addendum 2 @cardinal remarque que est également une divergence , pour la fonction convexe $\eta$ $f$

f (x) = x \log (x) - (1 + x) \log (1 + x) + (1 + x) \log (2) .

$f(x)=x\log(x)−(1+x)\log(1+x)+(1+x)\log(2).$

— Fait
source

2

@Marco, @Didier Piau, il convient de noter que @ la suggestion de Didier est un autre cas particulier d'un

-divergence où

f

$f$

.

f (x) = x \log x - (1 + x) \log (\frac{1 + x}{2})

$f(x) = x \log x - (1+x) \log( \frac{1+x}{2} )$

— Cardinal

1

@Marco, @Didier Piau, une formulation alternative qui a un certain caractère évocateur est

et donc

η (P, Q) = \int P \log P + \int Q \log Q - 2 \int R \log R = 2 H (R) - (H (P) + H (Q))

$\eta(P, Q) = \int P \log P + \int Q \log Q - 2 \int R \log R = 2 H(R) - (H(P) + H(Q))$

où

η (P, Q) = 2 (H (μ (P, Q)) - μ (H (P), H (Q))

$\eta(P,Q) = 2 ( H(\mu(P,Q)) - \mu(H(P), H(Q))$

. En d'autres termes,

μ (x, y) = \frac{x + y}{2}

$\mu(x,y) = \frac{x+y}{2}$

est "la différence entre l'entropie de la mesure moyenne et l'entropie moyenne des mesures".

\frac{1}{2} η (P, Q)

$\frac{1}{2} \eta(P,Q)$

— cardinal

3

N'est-ce pas juste la divergence Jensen-Shannon?

— Memming

Semble l'être .

— Est

"où le minimum est supérieur à l'ensemble des mesures de probabilité." J'aime cette caractérisation de la divergence Jensen – Shannon. Y en a-t-il une preuve quelque part?

— user76284

10

$P$ $Q$ $P$ $Q$

Il est difficile de caractériser cela comme une "adaptation" de la distance KL, mais cela répond aux autres exigences d'être "naturel" et fini.

$\mathbb{R_+} \to [0,C]$ $C$

— whuber
source

1

Merci pour votre suggestion sur la distance Kolmogorov. Pouvez-vous rendre votre commentaire sur la transformation monotone un peu plus explicite? Thx

— ocram

1

\arctan (K L (P, Q))

$\arctan(KL(P,Q))$

f (K L (P, Q))

$f(KL(P,Q))$

f : R_{+} \to [0, C]

$f:\mathbb{R_+} \to [0,C]$

x \geq y

$x \ge y$

f (x) \geq f (y)

$f(x) \ge f(y)$

x, y \geq 0

$x,y \ge 0$

1

Oui, c'est ce que je voulais dire :-) Je ne savais pas trop quoi appliquer la transformation. Maintenant, c'est clair, thx

— ocram

1

\arctan

$\arctan$

π / 2

$\pi/2$

\arctan

$\arctan$

π / 2

$\pi/2$

+ \infty

$+\infty$

— A fait

@Didier Oui, la divergence KL transformée (lorsqu'elle est symétrisée, comme vous le décrivez) pourrait ne pas satisfaire l'inégalité du triangle et ne serait donc pas une distance, mais elle définirait toujours une topologie (qui serait probablement métrizable). Vous abandonneriez ainsi peu ou rien. Je reste agnostique sur le bien-fondé de faire tout cela: il me semble que ce n'est qu'un moyen de passer en revue les difficultés associées aux valeurs infinies de la divergence KL en premier lieu.

— whuber

2

$P$ $Q$ $\kappa(P \mid Q)$

δ (P, Q) \equiv min [κ (P ∣ Q), κ (Q ∣ P)]

$\delta(P,Q)\equiv \min \big[\kappa(P \mid Q),\kappa(Q \mid P)\big]$

La recherche de divergence intrinsèque (ou critère de référence bayésien) vous donnera quelques articles sur cette mesure.

Dans votre cas, vous prendrez simplement la divergence KL qui est finie.

Une autre mesure alternative à KL est la distance de Hellinger

$Q\rightarrow 0$ $P\rightarrow 0$ $0$

δ (P, Q) \equiv min [\int P \log (\frac{P}{Q}), \int Q \log (\frac{Q}{P})]

$\delta(P,Q)\equiv \min \Big[\int P \,\log \big(\frac{P}{Q}\big),\int Q \log \big(\frac{Q}{P}\big)\Big]$

$P\rightarrow 0$ $0$ $\lim_{z\rightarrow 0} z \log(z) =0$ $P$ $Q$ $Q$

— probabilitéislogique
source

1

P

$P$

Q

$Q$

P

$P$ et

Q

$Q$ sont par ailleurs identiques.

— whuber

1

Oui ... je crains que la divergence intrinsèque ne réponde pas à l'exigence. Mais merci pour la suggestion. Toute autre suggestion serait appréciée.

— ocram

1

Il remplit l'exigence, si vous limitez le support de la densité du bleu pour qu'il soit là où il a un support strictement positif, tout comme vous l'avez pour le rouge (> 0)

— probabilislogic

3

@probabilityislogic: Je ne comprends pas vos dernières remarques. Donnons d'abord leurs noms propres aux notions impliquées et disons que

P

$P$ est absolument continue en ce qui concerne

Q

$Q$ (noté

P ≪ Q

$P\ll Q$ ) si, pour chaque mesurable

A

$A$ ,

Q (A) = 0

$Q(A)=0$ implique

P (A) = 0

$P(A)=0$ . Maintenant, malgré vos considérations de limite quelque peu mystérieuses (pour moi), votre

δ (P, Q)

$\delta(P,Q)$ est fini ssi

P ≪ Q

$P\ll Q$ ou

Q ≪ P

$Q\ll P$ . .../...

— Did

2

.../... A way out of the conundrum you seem to be dug into might be to introduce the mid-point measure

P + Q

$P+Q$ . Since

P ≪ P + Q

$P\ll P+Q$ and

Q ≪ P + Q

$Q\ll P+Q$ , the quantity

η (P, Q) := κ (P | P + Q) + κ (Q | P + Q)

$\eta(P,Q):=\kappa(P|P+Q)+\kappa(Q|P+Q)$ is always finite. Furthermore

η (P, Q) = 0

$\eta(P,Q)=0$ iff

P = Q

$P=Q$ and

η

$\eta$ is symmetric. Hence

η (P, Q)

$\eta(P,Q)$ indeed measures a kind of "distance" between

P

$P$ and

Q

$Q$ .

— Did