Connexion entre la métrique de Fisher et l'entropie relative

20

Quelqu'un peut-il prouver le lien suivant entre la métrique d'information de Fisher et l'entropie relative (ou divergence KL) d'une manière purement mathématique rigoureuse?

D (p (\cdot, a + d a) ∥ p (\cdot, a)) = \frac{1}{2} g_{i, j} d a^{i} d a^{j} + (O (‖ d a ‖^{3})

$D( p(\cdot , a+da) \parallel p(\cdot,a) ) =\frac{1}{2} g_{i,j} \, da^i \, da^j + (O( \|da\|^3)$

a = (a^{1}, \dots, a^{n}), d a = (d a^{1}, \dots, d a^{n})

$a=(a^1,\dots, a^n), da=(da^1,\dots,da^n)$

g_{i, j} = \int \partial_{i} (\log p (x; a)) \partial_{j} (\log p (x; a)) p (x; a) d x

$g_{i,j}=\int \partial_i (\log p(x;a)) \partial_j(\log p(x;a))~ p(x;a)~dx$

g_{i, j} d a^{i} d a^{j} := \sum_{i, j} g_{i, j} d a^{i} d a^{j}

$g_{i,j} \, da^i \, da^j := \sum_{i,j}g_{i,j} \, da^i \, da^j$

J'ai trouvé ce qui précède dans le joli blog de John Baez où Vasileios Anagnostopoulos en parle dans les commentaires.

mathematical-statistics kullback-leibler fisher-information

— Kumara
source

1

Cher Kumara: Pour clarifier, cela aiderait à mieux expliquer votre notation, en particulier la signification de

g_{i, j}

$g_{i,j}$ . De plus, je pense que votre expression manque un facteur constant de

1 / 2

$1/2$ devant le premier terme du côté droit de l'équation d'affichage. Notez que ce que Kullback lui-même a appelé divergence (en utilisant la notation

J (\cdot, \cdot)

$J(\cdot,\cdot)$ ) est la version symétrisée de ce que l'on appelle la divergence KL, c'est-à-dire

. La divergence KL a été notée

dans les écrits de Kullback. Ceci explique le facteur de

ainsi. À votre santé.

J (p, q) = D (p ‖ q) + D (q ‖ p)

$J(p,q) = D(p \| q) + D(q \| p)$

I (\cdot, \cdot)

$I(\cdot,\cdot)$

1 / 2

$1/2$

— Cardinal

19

En 1946, le géophysicien et statisticien bayésien Harold Jeffreys a introduit ce que nous appelons aujourd'hui la divergence Kullback-Leibler, et a découvert que pour deux distributions qui sont "infiniment proches" (espérons que les gars de Math SE ne voient pas cela ;-) nous pouvons écrire leur divergence Kullback-Leibler comme une forme quadratique dont les coefficients sont donnés par les éléments de la matrice d'information de Fisher. Il a interprété cette forme quadratique comme l'élément de longueur d'une variété riemannienne, les informations de Fisher jouant le rôle de la métrique riemannienne. De cette géométrisation du modèle statistique, il a dérivé son a priori de Jeffreys comme la mesure naturellement induite par la métrique riemannienne, et cette mesure peut être interprétée comme une distribution intrinsèquement uniforme sur la variété, bien que, en général, ce ne soit pas une mesure finie.

Pour rédiger une preuve rigoureuse, vous devrez repérer toutes les conditions de régularité et prendre soin de l'ordre des termes d'erreur dans les extensions Taylor. Voici un bref aperçu de l'argument.

$f$ $g$

ré [F, g] = \int (F (X) - g (X)) Journal (\frac{F (X)}{g (X)}) ré X .

$D[f,g] = \int (f(x) - g(x)) \log\left(\frac{f(x)}{g(x)} \right) dx \, .$

$\theta=(\theta_1,\dots,\theta_k)$

D [p (\cdot ∣ θ), p (\cdot ∣ θ + Δ θ)] = \int (p (x, ∣ θ) - p (x ∣ θ + Δ θ)) \log (\frac{p (x ∣ θ)}{p (x ∣ θ + Δ θ)}) d x,

$D[p(\,\cdot\,\mid\theta), p(\,\cdot\,\mid\theta + \Delta\theta)] = \int ( p(x,\mid\theta) - p(x\mid\theta + \Delta\theta)) \log\left( \frac{p(x\mid\theta)}{p(x\mid\theta + \Delta\theta)}\right) \,dx \, ,$

Δ θ = (Δ θ_{1}, \dots, Δ θ_{k})

$\Delta\theta=(\Delta\theta_1,\dots,\Delta\theta_k)$

Δ p (x ∣ θ) = p (x ∣ θ) - p (x ∣ θ + Δ θ),

$\Delta p(x\mid\theta) = p(x\mid\theta) - p(x\mid\theta + \Delta\theta) \, ,$

D [p (\cdot ∣ θ), p (\cdot ∣ θ + Δ θ)] = \int \frac{Δ p (x ∣ θ)}{p (x ∣ θ)} \log (1 + \frac{Δ p (x ∣ θ)}{p (x ∣ θ)}) p (x ∣ θ) d x .

$D[p(\;\cdot\,\mid\theta), p(\;\cdot\,\mid\theta + \Delta\theta)] = \int\frac{\Delta p(x\mid\theta)}{p(x\mid\theta)} \log\left(1+\frac{\Delta p(x\mid\theta)}{p(x\mid\theta)}\right)p(x\mid\theta)\,dx \, .$

\log (1 + \frac{Δ p (x ∣ θ)}{p (x ∣ θ)}) \approx \frac{Δ p (x ∣ θ)}{p (x ∣ θ)},

$\log\left(1+\frac{\Delta p(x\mid\theta)}{p(x\mid\theta)}\right) \approx \frac{\Delta p(x\mid\theta)}{p(x\mid\theta)} \, ,$

D [p (\cdot ∣ θ), p (\cdot ∣ θ + Δ θ)] \approx \int {(\frac{Δ p (x ∣ θ)}{p (x ∣ θ)})}^{2} p (x ∣ θ) d x .

$D[p(\;\cdot\,\mid\theta), p(\;\cdot\,\mid\theta + \Delta\theta)] \approx \int\left(\frac{\Delta p(x\mid\theta)}{p(x\mid\theta)}\right)^2p(x\mid\theta)\,dx \, .$

\frac{Δ p (x ∣ θ)}{p (x ∣ θ)} \approx \frac{1}{p (x ∣ θ)} \sum_{i = 1}^{k} \frac{\partial p (x ∣ θ)}{\partial θ_{i}} Δ θ_{i} = \sum_{i = 1}^{k} \frac{\partial \log p (x ∣ θ)}{\partial θ_{i}} Δ θ_{i} .

$\frac{\Delta p(x\mid\theta)}{p(x\mid\theta)} \approx \frac{1}{p(x\mid\theta)} \sum_{i=1}^k \frac{\partial p(x\mid\theta)}{\partial\theta_i} \, \Delta\theta_i = \sum_{i=1}^k \frac{\partial \log p(x\mid\theta)}{\partial\theta_i} \, \Delta\theta_i \, .$

D [p (\cdot ∣ θ), p (\cdot ∣ θ + Δ θ)] \approx \sum_{i, j = 1}^{k} g_{i j} Δ θ_{i} Δ θ_{j},

$D[p(\,\cdot\,\mid\theta), p(\,\cdot\,\mid\theta + \Delta\theta)] \approx \sum_{i,j=1}^k g_{ij} \,\Delta\theta_i \, \Delta\theta_j \, ,$

g_{i j} = \int \frac{\partial \log p (x ∣ θ)}{\partial θ_{i}} \frac{\partial \log p (x ∣ θ)}{\partial θ_{j}} p (x ∣ θ) d x .

$g_{ij} = \int \frac{\partial \log p(x\mid\theta)}{\partial\theta_i} \frac{\partial \log p(x\mid\theta)}{\partial\theta_j} p(x\mid\theta) \,dx \, .$

Voici le papier d'origine:

Jeffreys, H. (1946). Une forme invariante pour la probabilité a priori dans les problèmes d'estimation. Proc. Royal Soc. de Londres, série A, 186, 453–461.

— Zen
source

1

Merci beaucoup pour cette belle écriture. Ce serait bien si vous pouviez aider cela aussi.

— Kumara

Oui, vous avez bien dit. Je dois sortir de ce "piège d'abstraction".

— Kumara

@zen Vous utilisez l'extension Taylor du logarithme sous l'intégrale, pourquoi est-ce valable?

— Sus20200

1

Il semble crucial de commencer par la divergence KL symétrisée, par opposition à la divergence KL standard. L'article de Wikipédia ne fait aucune mention de la version symétrisée, et il est donc possible qu'elle soit incorrecte. en.wikipedia.org/wiki/Kullback%E2%80%93Leibler_divergence

— Surgical Commander

11

Preuve de divergence KL habituelle (non symétrique)

La réponse de Zen utilise la divergence KL symétrisée, mais le résultat vaut également pour la forme habituelle, car il devient symétrique pour des distributions infiniment proches.

$\theta$

D (p_{θ}, p_{θ + d θ}) = \sum p_{θ} \log p_{θ} - \sum p_{θ} \log p_{θ + d θ} .

$\begin{equation} D(p_\theta,p_{\theta+d\theta})=\sum p_\theta \log p_\theta - \sum p_\theta \log p_{\theta+d\theta}\ . \end{equation}$

= \underset{= 0}{\underset{⏟}{\sum p_{θ} \log p_{θ} - \sum p_{θ} \log p_{θ}}} - d θ \underset{= 0 †}{\underset{⏟}{\sum p_{θ} \frac{d}{d θ} \log p_{θ}}} - \frac{1}{2} {d θ}^{2} \underset{= - \sum p_{θ} (\frac{d}{d θ} \log p_{θ})^{2} ‡}{\underset{⏟}{\sum p_{θ} \frac{d^{2}}{d θ^{2}} \log p_{θ}}} + O ({d θ}^{3}) = \frac{1}{2} {d θ}^{2} \underset{Fisher information}{\underset{⏟}{\sum p_{θ} (\frac{d}{d θ} \log p_{θ})^{2}}} + O ({d θ}^{3}) .

$\begin{equation} = \underbrace{\sum p_\theta \log p_\theta - \sum p_\theta \log p_\theta}_{=\ 0} - d\theta \underbrace{\sum p_\theta \frac{d}{d\theta}\log p_\theta}_{=\ 0 \ \dagger} - \frac{1}{2}{d\theta}^2 \underbrace{\sum p_\theta \frac{d^2}{d\theta^2}\log p_\theta}_{= -\sum p_\theta (\frac{d}{d\theta}\log p_\theta)^2 \ \ddagger} + \mathcal{O}({d\theta}^3) \\ = \frac{1}{2}{d\theta}^2 \underbrace{\sum p_\theta (\frac{d}{d\theta}\log p_\theta)^2}_{\textrm{Fisher information}} + \mathcal{O}({d\theta}^3). \end{equation}$ Assuming some regularities, I have used the two results:

† : \sum p_{θ} \frac{d}{d θ} \log p_{θ} = \sum \frac{d}{d θ} p_{θ} = \frac{d}{d θ} \sum p_{θ} = 0,

$\begin{equation} \dagger: \sum p_\theta \frac{d}{d\theta}\log p_\theta = \sum \frac{d}{d\theta} p_\theta = \frac{d}{d\theta} \sum p_\theta =0, \end{equation}$

\begin{aligned} ‡ : \sum p_{θ} \frac{d^{2}}{d θ^{2}} \log p_{θ} & = \sum p_{θ} \frac{d}{d θ} (\frac{1}{p_{θ}} \frac{d p_{θ}}{d θ}) \\ = \sum p_{θ} [\frac{1}{p_{θ}} \frac{d^{2} p_{θ}}{d θ} - (\frac{1}{p_{θ}} \frac{d p_{θ}}{d θ})^{2}] \\ = \sum \frac{d^{2} p_{θ}}{d θ^{2}} - \sum p_{θ} (\frac{1}{p_{θ}} \frac{d p_{θ}}{d θ})^{2} \\ = \underset{= 0}{\underset{⏟}{\frac{d^{2}}{d θ^{2}} \sum p_{θ}}} - \sum p_{θ} (\frac{d}{d θ} \log p_{θ})^{2} . \end{aligned}

$\begin{align} \ddagger: \sum p_\theta \frac{d^2}{d\theta^2}\log p_\theta &= \sum p_\theta \frac{d}{d\theta}(\frac{1}{p_\theta}\frac{dp_\theta}{d\theta}) \\ &= \sum p_\theta \left[\frac{1}{p_\theta}\frac{d^2p_\theta}{d\theta}-(\frac{1}{p_\theta}\frac{dp_\theta}{d\theta})^2\right] \\ &= \sum \frac{d^2p_\theta}{d\theta^2} - \sum p_\theta (\frac{1}{p_\theta} \frac{dp_\theta}{d\theta})^2 \\ &= \underbrace{\frac{d^2}{d\theta^2} \sum p_\theta}_{=\ 0} - \sum {p_\theta} (\frac{d}{d\theta}\log p_\theta)^2. \end{align}$

— Abhranil Das
source

4

You can find a similar relationship (for a one-dimensional parameter) in equation (3) of the following paper

D. Guo (2009), Relative Entropy and Score Function: New Information–Estimation Relationships through Arbitrary Additive Perturbation, in Proc. IEEE International Symposium on Information Theory, 814–818. (stable link).

The authors refer to

S. Kullback, Information Theory and Statistics. New York: Dover, 1968.

for a proof of this result.

— Primo Carnera
source

1

A multivariate version of equation (3) of that paper is proven in the cited Kullback text on pages 27-28. The constant

1 / 2

$1/2$ seems to have gone missing in the OP's question. :)

— cardinal