En 1946, le géophysicien et statisticien bayésien Harold Jeffreys a introduit ce que nous appelons aujourd'hui la divergence Kullback-Leibler, et a découvert que pour deux distributions qui sont "infiniment proches" (espérons que les gars de Math SE ne voient pas cela ;-) nous pouvons écrire leur divergence Kullback-Leibler comme une forme quadratique dont les coefficients sont donnés par les éléments de la matrice d'information de Fisher. Il a interprété cette forme quadratique comme l'élément de longueur d'une variété riemannienne, les informations de Fisher jouant le rôle de la métrique riemannienne. De cette géométrisation du modèle statistique, il a dérivé son a priori de Jeffreys comme la mesure naturellement induite par la métrique riemannienne, et cette mesure peut être interprétée comme une distribution intrinsèquement uniforme sur la variété, bien que, en général, ce ne soit pas une mesure finie.
Pour rédiger une preuve rigoureuse, vous devrez repérer toutes les conditions de régularité et prendre soin de l'ordre des termes d'erreur dans les extensions Taylor. Voici un bref aperçu de l'argument.
fg
D [ f, g] = ∫( f( x ) - g( x ) ) journal( f( x )g( x )) dX.
θ = ( θ1, … , Θk)
D [ p (⋅∣ θ ) , p (⋅∣ θ + Δ θ ) ] = ∫( p ( x , ∣ θ ) - p ( x ∣ θ + Δ θ ) ) log( p ( x ∣ θ )p(x∣θ+Δθ))dx,
Δθ=(Δθ1,…,Δθk)Δp(x∣θ)=p(x∣θ)−p(x∣θ+Δθ),
D[p(⋅∣θ),p(⋅∣θ+Δθ)]=∫Δp(x∣θ)p(x∣θ)log(1+Δp(x∣θ)p(x∣θ))p(x∣θ)dx.
log(1+Δp(x∣θ)p(x∣θ))≈Δp(x∣θ)p(x∣θ),
D[p(⋅∣θ),p(⋅∣θ+Δθ)]≈∫(Δp(x∣θ)p(x∣θ))2p(x∣θ)dx.
Δp(x∣θ)p(x∣θ)≈1p(x∣θ)∑i=1k∂p(x∣θ)∂θiΔθi=∑i=1k∂logp(x∣θ)∂θiΔθi.
D[p(⋅∣θ),p(⋅∣θ+Δθ)]≈∑i,j=1kgijΔθiΔθj,
gij=∫∂logp(x∣θ)∂θi∂logp(x∣θ)∂θjp(x∣θ)dx.
Voici le papier d'origine:
Jeffreys, H. (1946). Une forme invariante pour la probabilité a priori dans les problèmes d'estimation. Proc. Royal Soc. de Londres, série A, 186, 453–461.