Divergence de Jensen-Shannon pour les distributions normales bivariées

8

Étant donné deux distributions normales bivariées $P \equiv \mathcal{N}(\mu_p, \Sigma_p)$ et $Q \equiv \mathcal{N}(\mu_q, \Sigma_q)$ , J'essaie de calculer la divergence Jensen-Shannon entre eux, définie (pour le cas discret) comme: $JSD(P\|Q) = \frac{1}{2} (KLD(P\|M)+ KLD(Q\|M))$ où est la divergence Kullback-Leibler, et j'ai trouvé le moyen de calculer en termes de paramètres des distributions, et donc . $KLD$ $M=\frac{1}{2}(P+Q)$
$KLD$ $JSD$

Mes doutes sont:

Pour calculer , je viens de faire . Est-ce correct? $M$ $M \equiv \mathcal{N}(\frac{1}{2}(\mu_p + \mu_q), \frac{1}{2}(\Sigma_p + \Sigma_q))$
J'ai lu dans [ 1 ] que le est borné, mais cela ne semble pas être vrai lorsque je le calcule comme décrit ci-dessus pour les distributions normales. Cela signifie-t-il que je fais un mauvais calcul, que je viole une hypothèse ou autre chose que je ne comprends pas? $JSD$

normal-distribution distance-functions information-theory

— jorges
source

8

La mesure médiane est une distribution des deux normales multivariées, donc elle n'a pas la forme que vous donnez dans le message d'origine. Soit la fonction de densité de probabilité d'un vecteur aléatoire et le pdf de . Le pdf de la mesure médiane est alors $\newcommand{\bx}{\mathbf{x}} \newcommand{\KL}{\mathrm{KL}}M$ $\varphi_p(\bx)$ $\mathcal{N}(\mu_p, \Sigma_p)$ $\varphi_q(\bx)$ $\mathcal{N}(\mu_q, \Sigma_q)$

φ_{m} (x) = \frac{1}{2} φ_{p} (x) + \frac{1}{2} φ_{q} (x) .

$\varphi_m(\bx) = \frac{1}{2} \varphi_p(\bx) + \frac{1}{2} \varphi_q(\bx) \> .$

La divergence Jensen-Shannon est où désigne le (différentiel) entropie correspondant à la mesure .

J S D = \frac{1}{2} (K L (P ‖ M) + K L (Q ‖ M)) = h (M) - \frac{1}{2} (h (P) + h (Q)),

$\mathrm{JSD} = \frac{1}{2} (\KL(P\,\|M)+ \KL(Q\|M)) = h(M) - \frac{1}{2} (h(P) + h(Q)) \>,$

h (P)

$h(P)$

P

$P$

Ainsi, votre calcul se réduit à calculer des entropies différentielles. Pour la normale multivariée , la réponse est connue pour être et la preuve peut être trouvée dans un certain nombre de sources, par exemple, Cover et Thomas (1991), pp. 230-231. Il convient de noter que l'entropie d'une normale multivariée est invariante par rapport à la moyenne, comme le montre l'expression ci-dessus. Cependant, cela ne s'applique presque certainement pas au cas d'un mélange de normales. (Pensez à choisir une normale large centrée sur zéro et une autre normale concentrée où cette dernière est repoussée loin de l'origine.) $\mathcal{N}(\mu, \Sigma)$

\frac{1}{2} \log_{2} ((2 π e)^{n} | Σ |)

$\frac{1}{2} \log_2\big((2\pi e)^n |\Sigma|\big)$

Pour la mesure médiane, les choses semblent plus compliquées. À ma connaissance, il n'y a pas d'expression de forme fermée pour l'entropie différentielle . La recherche sur Google donne quelques coups potentiels, mais les meilleurs ne semblent pas donner de formes fermées dans le cas général. Vous pouvez être coincé avec l'estimation de cette quantité d'une manière ou d'une autre. $h(M)$

Notez également que le document auquel vous faites référence ne limite pas le traitement aux seules distributions discrètes. Ils traitent un cas suffisamment général pour que votre problème rentre dans leur cadre. Voir le milieu de la deuxième colonne à la page 1859. Voici où il est également montré que la divergence est limitée. Cela vaut pour le cas de deux mesures générales et n'est pas limité au cas de deux distributions discrètes.

La divergence Jensen-Shannon a été soulevée à quelques reprises récemment dans d'autres questions sur ce site. Voir ici et ici .

Addendum : Notez qu'un mélange de normales n'est pas la même chose qu'une combinaison linéaire de normales. La façon la plus simple de voir cela est de considérer le cas unidimensionnel. Soit et et laissez-les être indépendants l' un de l'autre. Ensuite, un mélange des deux normales utilisant des poids pour a la distribution $X_1 \sim \mathcal{N}(-\mu, 1)$ $X_2 \sim \mathcal{N}(\mu, 1)$ $(\alpha, 1-\alpha)$ $\alpha \in (0,1)$

φ_{m} (x) = α \cdot \frac{1}{\sqrt{2 π}} e^{- \frac{(x + μ)^{2}}{2}} + (1 - α) \cdot \frac{1}{\sqrt{2 π}} e^{- \frac{(x - μ)^{2}}{2}} .

$\varphi_m(x) = \alpha \cdot \frac{1}{\sqrt{2\pi}} e^{-\frac{(x+\mu)^2}{2}} + (1-\alpha) \cdot \frac{1}{\sqrt{2\pi}} e^{-\frac{(x-\mu)^2}{2}} \> .$

La distribution d'une combinaison linéaire de et utilisant les mêmes poids que précédemment est, via la propriété stable de la distribution normale est où . $X_1$ $X_2$

φ_{ℓ} (x) = \frac{1}{\sqrt{2 π σ^{2}}} e^{- \frac{(x - (1 - 2 α) μ)^{2}}{2 σ^{2}}},

$\varphi_{\ell}(x) = \frac{1}{\sqrt{2\pi\sigma^2}} e^{-\frac{(x-(1-2\alpha)\mu)^2}{2\sigma^2}} \>,$

σ^{2} = α^{2} + (1 - α)^{2}

$\sigma^2 = \alpha^2 + (1-\alpha)^2$

Ces deux distributions sont très différentes, bien qu'elles aient la même moyenne. Ce n'est pas un accident et découle de la linéarité des attentes.

Pour comprendre la distribution du mélange, imaginez que vous deviez vous rendre chez un consultant en statistique pour qu'elle puisse produire des valeurs à partir de cette distribution pour vous. Elle détient une réalisation de dans une paume et une réalisation de dans l'autre paume (bien que vous ne sachiez pas dans laquelle des deux paumes chacune se trouve). Maintenant, son assistant lance une pièce biaisée avec une probabilité hors de votre vue, puis vient et chuchote le résultat à l'oreille du statisticien. Elle ouvre une de ses paumes et vous montre la réalisation, mais ne vous dit pas le résultat du tirage au sort. Ce processus produit la distribution du mélange. $X_1$ $X_2$ $\alpha$

En revanche, la combinaison linéaire peut être comprise dans le même contexte. Le consultant statistique prend simplement les deux réalisations, multiplie le premier par et le second par , additionne le résultat et vous le montre. $\alpha$ $(1-\alpha)$

— cardinal
source

Merci pour votre réponse. Donc, mon problème réside dans (comment j'ai calculé) la distribution médiane. Veuillez excuser mon ignorance si je pose une question évidente, mais en quoi la distribution médiane est-elle différente de la somme des variables aléatoires normalement distribuées ? Est-ce parce que nous sommes dans un cas bi-varié?

— jorges

2

@jorges La somme sera normale et est donc symétrique par rapport à un seul mode. Lorsque les deux moyens sont suffisamment éloignés l'un de l'autre (par rapport à leur écart type), la distribution du mélange est bimodale . En aucun cas le mélange n'est normal sauf dans les cas dégénérés (moyennes et SD égaux). Cela ressort également de la formule de : cette moyenne d'exponentielles ne peut pas être écrite comme l'exponentielle d'une forme quadratique.

φ_{m}

$\varphi_m$

— whuber

@whuber et cardinal: Bien que je comprenne intuitivement ce que vous dites, je semble avoir un sérieux problème avec les concepts. Je ne suis pas vraiment un statisticien, et je pense que je mélange "somme de variables aléatoires" avec "distribution de mélange". Je ne conteste pas vraiment ce que le cardinal et vous avez répondu, mais j'essaie plutôt de comprendre la différence et quand l'utiliser, car je pourrais faire des erreurs similaires ailleurs. Je vais retourner faire un peu de lecture et voir si je peux me clarifier. Merci pour vos réponses.

— jorges

2

La réponse du cardinal est correcte. Vous essayez d'obtenir une solution de forme fermée pour la divergence Jensen-Shannon de deux Gaussiennes; aucune telle solution n'existe.

Cependant, vous pouvez calculer Jensen-Shannon avec une précision arbitraire en utilisant l'échantillonnage Monte Carlo. Ce dont vous avez besoin est un moyen de calculer , et par extension . La divergence Kullback-Leibler est définie comme: $KLD(P|M)$ $KLD(Q|M)$

K L D (P | M) = \int P (x) l o g (\frac{P (x)}{M (x)}) d x

$KLD(P|M) = \int P(x) log\big(\frac{P(x)}{M(x)}\big) dx$

L'approximation de Monte Carlo de ceci est:

K L D_{a p p r o x} (P | M) = \frac{1}{n} \sum_{i}^{n} l o g (\frac{P (x_{i})}{M (x_{i})})

$KLD_{approx}(P|M) = \frac{1}{n} \sum^n_i log\big(\frac{P(x_i)}{M(x_i)}\big)$

où les ont été échantillonnés à partir de , ce qui est facile car c'est un gaussien dans votre cas. Comme , . peut être calculé comme . $x_i$ $P(x)$ $n \to \infty$ $KLD_{approx}(P|M) \to KLD(P|M)$ $M(x_i)$ $M(x_i) = \frac{1}{2}P(x_i) + \frac{1}{2}Q(x_i)$

— FrankD
source

HI @FrankD - J'ai essayé de mettre en œuvre votre suggestion ici: stats.stackexchange.com/questions/345915/… bien que je ne pense pas que ce soit tout à fait ce que vous vouliez dire. Les pointeurs sont les bienvenus.

— Astrid