Considérons le bayésien . De manière asymptotique, son maximum se produit à l'estimation MLE , qui maximise simplement la probabilité .
Tous ces concepts - prieurs bayésiens, maximisation de la probabilité - semblent super principes et pas du tout arbitraires. Il n'y a pas de journal en vue.
Pourtant, MLE minimise la divergence KL entre la distribution réelle et , c'est-à-dire qu'elle minimise
Woah - d'où viennent ces journaux? Pourquoi KL divergence en particulier?
Pourquoi, par exemple, minimiser une divergence différente ne correspond-il pas aux concepts superprincipaux et motivés des postérieurs bayésiens et maximiser la probabilité ci-dessus?
Il semble y avoir quelque chose de spécial à propos de la divergence et / ou des journaux de KL dans ce contexte. Bien sûr, nous pouvons jeter nos mains en l'air et dire que c'est comme ça que les mathématiques sont. Mais je soupçonne qu'il pourrait y avoir une intuition plus profonde ou des connexions à découvrir.