Je suis tombé sur un vaste corpus de littérature qui préconise d'utiliser la métrique de l'information de Fisher comme métrique locale naturelle dans l'espace des distributions de probabilité, puis de l'intégrer pour définir les distances et les volumes.
Mais ces quantités «intégrées» sont-elles réellement utiles à quelque chose? Je n'ai trouvé aucune justification théorique et très peu d'applications pratiques. L'un est le travail de Guy Lebanon où il utilise la «distance de Fisher» pour classer les documents et un autre est l' ABC de Rodriguez de la sélection des modèles… où le «volume de Fisher» est utilisé pour la sélection des modèles. Apparemment, l'utilisation du "volume d'informations" donne une amélioration des "ordres de grandeur" par rapport à AIC et BIC pour la sélection des modèles, mais je n'ai vu aucun suivi de ce travail.
Une justification théorique pourrait être d'avoir une borne de généralisation qui utilise cette mesure de distance ou de volume et qui est meilleure que les bornes dérivées de MDL ou d'arguments asymptotiques, ou une méthode reposant sur l'une de ces quantités qui est manifestement meilleure dans une situation raisonnablement pratique, existe-t-il des résultats de ce genre?