Pour comprendre la discussion de Watanabe, il est important de réaliser ce qu'il entendait par "singularité". La singularité (stricte) coïncide avec la notion géométrique de métrique singulière dans sa théorie.
p.10 [Watanabe]: "Un modèle statistique est dit régulier s'il est identifiable et a une métrique définie positive. Si un modèle statistique n'est pas régulier, alors il est appelé strictement singulier."p(x∣w)
Dans la pratique, la singularité survient généralement lorsque la métrique d'information de Fisher induite par le modèle dégénère sur la variété définie par le modèle, comme les cas de rang faible ou clairsemés dans le cadre du "machine learning".
Ce que Watanabe a dit à propos de la convergence de la divergence empirique du KL vers sa valeur théorique peut être compris comme suit. L'une des origines de la notion de divergence provient de statistiques solides. Les estimateurs M, qui incluent MLE comme cas spécial avec fonction de contraste , sont généralement discutés en utilisant une topologie faible. Il est raisonnable de discuter du comportement de convergence en utilisant une topologie faible sur l'espace M ( X ) (la variété de toutes les mesures possibles définies sur l'espace polonais Xρ(θ,δ(X))=−logp(X∣θ)M(X)X) car nous voulons étudier le comportement de robustesse du MLE. Un théorème classique dans [Huber] a déclaré qu'avec une fonction de divergence bien séparée . inf | θ - θ 0 | ≥ ϵ ( | D ( θ 0 , θ ) - D ( θ 0 , θ 0 ) | ) > 0D(θ0,θ)=Eθ0ρ(θ,δ)
inf|θ−θ0|≥ϵ(|D(θ0,θ)−D(θ0,θ0)|)>0
et bonne approximation empirique de la fonction de contraste à la divergence,
avec la régularité, nous pouvons donner une cohérence au sens
^ θ n :=argsupθ∣∣∣1n∑iρ(θ,δ(Xi))−D(θ0,θ)∣∣∣→0,n→∞
convergera vers
θ 0 dans la probabilité
P θ 0 . Ce résultat nécessite des conditions beaucoup plus précises si l'on compare avec le résultat de Doob [Doob] en faible cohérence de l'estimateur bayésien.
θn^:=argminθρ(θ,δ(Xn))
θ0Pθ0
Voici donc les estimateurs bayésiens et les MLE divergent. Si nous utilisons encore une topologie faible pour discuter de la cohérence des estimateurs bayésiens, cela n'a aucun sens car les estimateurs bayésiens seront toujours (avec une probabilité un) cohérents par Doob. Par conséquent, une topologie plus appropriée est la topologie de distribution de Schwarz qui permet des dérivées faibles et la théorie de von Mises est entrée en jeu. Barron avait un très bon rapport technique sur ce sujet, comment utiliser le théorème de Schwartz pour obtenir une cohérence.
D
Le "résultat d'apprentissage singulier" est affecté parce que, comme nous le voyons, le théorème de cohérence de Doob garantit que les estimateurs bayésiens sont faiblement cohérents (même dans le modèle singulier) dans une topologie faible tandis que MLE doit répondre à certaines exigences dans la même topologie.
Juste un mot, [Watanabe] n'est pas pour les débutants. Il a des implications profondes sur les ensembles analytiques réels qui nécessitent plus de maturité mathématique que la plupart des statisticiens, il n'est donc probablement pas une bonne idée de le lire sans des conseils appropriés.
■
[Watanabe] Watanabe, Sumio. Géométrie algébrique et théorie de l'apprentissage statistique. Vol. 25. Cambridge University Press, 2009.
[Huber] Huber, Peter J. "Le comportement des estimations du maximum de vraisemblance dans des conditions non standard." Actes du cinquième symposium de Berkeley sur les statistiques mathématiques et les probabilités. Vol. 1. N ° 1. 1967.
[Doob] Doob, Joseph L. "Application de la théorie des martingales." Le calcul des probabilités et ses applications (1949): 23-27.