En termes simples et sans aucun symbole mathématique, a priori signifie des croyances initiales sur un événement en termes de distribution de probabilité . Vous configurez ensuite une expérience et obtenez des données, puis vous «mettez à jour» votre croyance (et donc la distribution de probabilité) en fonction du résultat de l'expérience (la distribution de probabilité a posteriori).
Exemple:
Supposons que l'on nous donne deux pièces. Mais nous ne savons pas quelle pièce est fausse. La pièce 1 est impartiale (les TÊTES et les QUEUES ont une probabilité de 50%), et la pièce 2 est biaisée, disons, nous savons qu'elle donne des TÊTES avec une probabilité de 60%. Mathématiquement:
Étant donné que nous avons des TÊTES, la probabilité qu'il s'agisse de la pièce 1 est de 0,4 et la probabilité qu'il s'agisse de la pièce 2 est de 0,6
p(H|Coin1)=0.4
p(H|Coin2)=0.6
C'est tout ce que nous savons avant de mettre en place une expérience.
Maintenant, nous allons choisir une pièce pour la lancer, et sur la base des informations que nous avons (H ou T), nous allons deviner quelle pièce nous avons choisie (pièce 1 ou pièce 2).
Initialement, nous supposons que deux pièces ont des chances égales, car nous n'avons pas encore d'informations. C'est notre prieur . C'est une distribution uniforme .p(Coin1)=p(Coin2)=0.5
Maintenant, nous prenons au hasard une pièce, la lançons et avons une TÊTE. En ce moment, tout se passe. Nous calculons la probabilité / distribution postérieure en utilisant la formule bayésienne:
p(Coin1|H)=p(H|Coin1)p(Coin1)p(H|Coin1)p(Coin1)+p(H|Coin2)p(Coin2)=0.4×0.50.4×0.5+0.6×0.5=0.4
p(Coin2|H)=p(H|Coin2)p(Coin2)p(H|Coin1)p(Coin1)+p(H|Coin2)p(Coin2)=0.6×0.50.4×0.5+0.6×0.5=0.6
Donc, initialement, nous avions probabilité de pour chaque pièce, mais maintenant, après l'expérience, nos croyances ont changé, nous pensons maintenant que la pièce est la pièce 1 avec une probabilité de 0,4 et qu'elle est la pièce 2 avec une probabilité de 0,6. Voici notre distribution postérieure, la distribution de Bernoulli .0.5
C'est le principe de base de l'inférence bayésienne et des statistiques utilisées dans l'apprentissage automatique.