La mesure médiane est une distribution des deux normales multivariées, donc elle n'a pas la forme que vous donnez dans le message d'origine. Soit la fonction de densité de probabilité d'un vecteur aléatoire et le pdf de . Le pdf de la mesure médiane est alors
Mφp(x)N(μp,Σp)φq(x)N(μq,Σq)
φm(x)=12φp(x)+12φq(x).
La divergence Jensen-Shannon est
où désigne le (différentiel) entropie correspondant à la mesure .
JSD=12(KL(P∥M)+KL(Q∥M))=h(M)−12(h(P)+h(Q)),
h(P)P
Ainsi, votre calcul se réduit à calculer des entropies différentielles. Pour la normale multivariée , la réponse est connue pour être
et la preuve peut être trouvée dans un certain nombre de sources, par exemple, Cover et Thomas (1991), pp. 230-231. Il convient de noter que l'entropie d'une normale multivariée est invariante par rapport à la moyenne, comme le montre l'expression ci-dessus. Cependant, cela ne s'applique presque certainement pas au cas d'un mélange de normales. (Pensez à choisir une normale large centrée sur zéro et une autre normale concentrée où cette dernière est repoussée loin de l'origine.)N(μ,Σ)
12log2((2πe)n|Σ|)
Pour la mesure médiane, les choses semblent plus compliquées. À ma connaissance, il n'y a pas d'expression de forme fermée pour l'entropie différentielle . La recherche sur Google donne quelques coups potentiels, mais les meilleurs ne semblent pas donner de formes fermées dans le cas général. Vous pouvez être coincé avec l'estimation de cette quantité d'une manière ou d'une autre.h(M)
Notez également que le document auquel vous faites référence ne limite pas le traitement aux seules distributions discrètes. Ils traitent un cas suffisamment général pour que votre problème rentre dans leur cadre. Voir le milieu de la deuxième colonne à la page 1859. Voici où il est également montré que la divergence est limitée. Cela vaut pour le cas de deux mesures générales et n'est pas limité au cas de deux distributions discrètes.
La divergence Jensen-Shannon a été soulevée à quelques reprises récemment dans d'autres questions sur ce site. Voir ici et ici .
Addendum : Notez qu'un mélange de normales n'est pas la même chose qu'une combinaison linéaire de normales. La façon la plus simple de voir cela est de considérer le cas unidimensionnel. Soit et et laissez-les être indépendants l' un de l'autre. Ensuite, un mélange des deux normales utilisant des poids pour a la distribution
X1∼N(−μ,1)X2∼N(μ,1)(α,1−α)α∈(0,1)
φm(x)=α⋅12π−−√e−(x+μ)22+(1−α)⋅12π−−√e−(x−μ)22.
La distribution d'une combinaison linéaire de et utilisant les mêmes poids que précédemment est, via la propriété stable de la distribution normale est
où .X1X2
φℓ(x)=12πσ2−−−−√e−(x−(1−2α)μ)22σ2,
σ2=α2+(1−α)2
Ces deux distributions sont très différentes, bien qu'elles aient la même moyenne. Ce n'est pas un accident et découle de la linéarité des attentes.
Pour comprendre la distribution du mélange, imaginez que vous deviez vous rendre chez un consultant en statistique pour qu'elle puisse produire des valeurs à partir de cette distribution pour vous. Elle détient une réalisation de dans une paume et une réalisation de dans l'autre paume (bien que vous ne sachiez pas dans laquelle des deux paumes chacune se trouve). Maintenant, son assistant lance une pièce biaisée avec une probabilité hors de votre vue, puis vient et chuchote le résultat à l'oreille du statisticien. Elle ouvre une de ses paumes et vous montre la réalisation, mais ne vous dit pas le résultat du tirage au sort. Ce processus produit la distribution du mélange.X1X2α
En revanche, la combinaison linéaire peut être comprise dans le même contexte. Le consultant statistique prend simplement les deux réalisations, multiplie le premier par et le second par , additionne le résultat et vous le montre.α(1−α)