Vous posez essentiellement une question très intéressante: devrais-je prédire en utilisant l' estimation "MAP Bayesian" Maximum a posteriori ou "Real Bayesian".
Supposons que vous connaissiez la vraie distribution que , puis en utilisant l'estimation MAP, supposons que vous vouliez faire 100 prédictions sur les 100 prochains résultats de retournement. Vous devriez toujours deviner que le flip est la queue , PAS deviner têtes et queues. Cela s'appelle "MAP Bayesian", en gros vous faites20 80P(H)=0.22080
argmaxθf(x|θ)
Il n'est pas difficile de prouver qu'en procédant ainsi, vous pouvez minimiser l'erreur prédite (perte 0-1). La preuve se trouve à ~ page 53 de Introduction to Statistical Learning .
Il existe une autre façon de procéder, appelée approche "Real Bayesian". Fondamentalement, vous n'essayez pas de "sélectionner le résultat avec la probabilité la plus élevée, mais considérez tous les cas de manière probabiliste". Donc, si quelqu'un vous demande de "prédire les 100 prochains flips", vous devez le mettre en pause, car lorsque vous avez donné 100 résultats binaires, les informations probabilistes pour chaque résultat disparaissent. Au lieu de cela, vous devriez demander ce que vous voulez faire APRÈS avoir connu les résultats.
Supposons qu'il ait une fonction de perte (non nécessaire pour une perte de 0-1, par exemple, la fonction de perte peut être, si vous manquez une tête, vous devez payer 1 $ , mais si vous manquez une queue, vous devez payer 5 $ , c.-à-d. Perte déséquilibrée) sur votre prédiction, alors vous devriez utiliser vos connaissances sur la distribution des résultats pour minimiser la perte sur toute la distribution
∑x∑yp(x,y)L(f(x),y)
, c.-à-d., incorporez vos connaissances sur la distribution à perte, au lieu de "la manière mise en scène", obtenez les prédictions et faites les prochaines étapes.
De plus, vous avez une très bonne intuition sur ce qui se passera quand il y aura de nombreux résultats possibles. L'estimation MAP ne fonctionnera pas bien si le nombre de résultats est important et la masse de probabilité est largement répartie. Pensez que vous avez 100 dés et vous connaissez la vraie distribution. Où et . Maintenant, que faites-vous avec MAP? Vous devinerez toujours que vous obtenez le premier côté , car il a la plus grande probabilité de se comparer aux autres. Cependant, vous vous tromperez des fois !!P(S1)=0.1P(S2)=P(S3)=P(S100)=0.9/99=0.009090S190%