Connexion entre la métrique de Fisher et l'entropie relative


20

Quelqu'un peut-il prouver le lien suivant entre la métrique d'information de Fisher et l'entropie relative (ou divergence KL) d'une manière purement mathématique rigoureuse?

D(p(,a+da)p(,a))=12gi,jdaidaj+(O(da3)
g i , j = i ( log p ( x ; a ) ) j ( log p ( x ; a ) ) p ( x ; a ) d x g i , ja=(a1,,an),da=(da1,,dan)
gi,j=i(logp(x;a))j(logp(x;a)) p(x;a) dx
gi,jdaidaj:=i,jgi,jdaidaj

J'ai trouvé ce qui précède dans le joli blog de John Baez où Vasileios Anagnostopoulos en parle dans les commentaires.


1
Cher Kumara: Pour clarifier, cela aiderait à mieux expliquer votre notation, en particulier la signification de gi,j . De plus, je pense que votre expression manque un facteur constant de 1/2 devant le premier terme du côté droit de l'équation d'affichage. Notez que ce que Kullback lui-même a appelé divergence (en utilisant la notation J(,) ) est la version symétrisée de ce que l'on appelle la divergence KL, c'est-à-dire . La divergence KL a été notée I ( , ) dans les écrits de Kullback. Ceci explique le facteur de 1 / 2 ainsi. À votre santé. J(p,q)=D(pq)+D(qp)I(,)1/2
Cardinal

Réponses:


19

En 1946, le géophysicien et statisticien bayésien Harold Jeffreys a introduit ce que nous appelons aujourd'hui la divergence Kullback-Leibler, et a découvert que pour deux distributions qui sont "infiniment proches" (espérons que les gars de Math SE ne voient pas cela ;-) nous pouvons écrire leur divergence Kullback-Leibler comme une forme quadratique dont les coefficients sont donnés par les éléments de la matrice d'information de Fisher. Il a interprété cette forme quadratique comme l'élément de longueur d'une variété riemannienne, les informations de Fisher jouant le rôle de la métrique riemannienne. De cette géométrisation du modèle statistique, il a dérivé son a priori de Jeffreys comme la mesure naturellement induite par la métrique riemannienne, et cette mesure peut être interprétée comme une distribution intrinsèquement uniforme sur la variété, bien que, en général, ce ne soit pas une mesure finie.

Pour rédiger une preuve rigoureuse, vous devrez repérer toutes les conditions de régularité et prendre soin de l'ordre des termes d'erreur dans les extensions Taylor. Voici un bref aperçu de l'argument.

fg

[F,g]=(F(X)-g(X))Journal(F(X)g(X))X.

θ=(θ1,,θk)

D[p(θ),p(θ+Δθ)]=(p(x,θ)p(xθ+Δθ))log(p(xθ)p(xθ+Δθ))dx,
Δθ=(Δθ1,,Δθk)
Δp(xθ)=p(xθ)p(xθ+Δθ),
D[p(θ),p(θ+Δθ)]=Δp(xθ)p(xθ)log(1+Δp(xθ)p(xθ))p(xθ)dx.
log(1+Δp(xθ)p(xθ))Δp(xθ)p(xθ),
D[p(θ),p(θ+Δθ)](Δp(xθ)p(xθ))2p(xθ)dx.
Δp(xθ)p(xθ)1p(xθ)i=1kp(xθ)θiΔθi=i=1klogp(xθ)θiΔθi.
D[p(θ),p(θ+Δθ)]i,j=1kgijΔθiΔθj,
gij=logp(xθ)θilogp(xθ)θjp(xθ)dx.

Voici le papier d'origine:

Jeffreys, H. (1946). Une forme invariante pour la probabilité a priori dans les problèmes d'estimation. Proc. Royal Soc. de Londres, série A, 186, 453–461.


1
Merci beaucoup pour cette belle écriture. Ce serait bien si vous pouviez aider cela aussi.
Kumara

Oui, vous avez bien dit. Je dois sortir de ce "piège d'abstraction".
Kumara

@zen Vous utilisez l'extension Taylor du logarithme sous l'intégrale, pourquoi est-ce valable?
Sus20200

1
Il semble crucial de commencer par la divergence KL symétrisée, par opposition à la divergence KL standard. L'article de Wikipédia ne fait aucune mention de la version symétrisée, et il est donc possible qu'elle soit incorrecte. en.wikipedia.org/wiki/Kullback%E2%80%93Leibler_divergence
Surgical Commander

11

Preuve de divergence KL habituelle (non symétrique)

La réponse de Zen utilise la divergence KL symétrisée, mais le résultat vaut également pour la forme habituelle, car il devient symétrique pour des distributions infiniment proches.

θ

D(pθ,pθ+dθ)=pθlogpθpθlogpθ+dθ .
=pθlogpθpθlogpθ= 0dθpθddθlogpθ= 0 12dθ2pθd2dθ2logpθ=pθ(ddθlogpθ)2 +O(dθ3)=12dθ2pθ(ddθlogpθ)2Fisher information+O(dθ3).
Assuming some regularities, I have used the two results:
:pθddθlogpθ=ddθpθ=ddθpθ=0,

:pθd2dθ2logpθ=pθddθ(1pθdpθdθ)=pθ[1pθd2pθdθ(1pθdpθdθ)2]=d2pθdθ2pθ(1pθdpθdθ)2=d2dθ2pθ= 0pθ(ddθlogpθ)2.

4

You can find a similar relationship (for a one-dimensional parameter) in equation (3) of the following paper

D. Guo (2009), Relative Entropy and Score Function: New Information–Estimation Relationships through Arbitrary Additive Perturbation, in Proc. IEEE International Symposium on Information Theory, 814–818. (stable link).

The authors refer to

S. Kullback, Information Theory and Statistics. New York: Dover, 1968.

for a proof of this result.


1
A multivariate version of equation (3) of that paper is proven in the cited Kullback text on pages 27-28. The constant 1/2 seems to have gone missing in the OP's question. :)
cardinal
En utilisant notre site, vous reconnaissez avoir lu et compris notre politique liée aux cookies et notre politique de confidentialité.
Licensed under cc by-sa 3.0 with attribution required.