Dans "L'apprentissage automatique: une perspective probabiliste" de Kevin Murphy, le chapitre 3.2, l'auteur montre l'apprentissage conceptuel bayésien sur un exemple appelé "jeu de nombres": Après avoir observé des échantillons de , nous voulons choisir une hypothèse qui décrit le mieux la règle qui a généré les échantillons. Par exemple, "nombres pairs" ou "nombres premiers".
Les estimations du maximum a-posteriori et du maximum de vraisemblance sont définies comme suit:
où représente les probabilités a priori de diverses hypothèses et le postérieur est défini comme:
ssi , c'est-à-dire, quelle est la probabilité qu'un échantillonnage uniforme avec remplacement de l'hypothèse produise l'ensemble . Intuitivement, cela signifie que le postérieur est le plus élevé pour les "plus petites" hypothèses. Par exemple, les hypothèses "puissances de 2" expliquent mieux les observations que les "nombres pairs".
Tout cela est clair. Cependant, je suis confus au sujet de la phrase suivante (même si elle est intuitivement parfaitement logique):
Étant donné que le terme de vraisemblance dépend de façon exponentielle de et que les antérieurs restent constants, à mesure que nous obtenons de plus en plus de données, l'estimation MAP converge vers l'estimation de vraisemblance maximale.
Il est vrai que la probabilité dépend exponentiellement de , cependant, le nombre exponenti est dans l'intervalle et comme , , donc la probabilité devrait en fait disparaître.
Pourquoi MAP converge-t-il vers MLE dans ce cas?