Intuition du théorème de Bayes


22

J'ai essayé de développer une compréhension basée sur l'intuition du théorème de Bayes en termes de probabilité antérieure , postérieure , de probabilité et marginale . Pour cela, j'utilise l'équation suivante: où représente une hypothèse ou une croyance et représente des données ou des preuves. J'ai compris le concept du postérieur - c'est une entité unificatrice qui combine la croyance antérieure et la probabilité d'un événement. Ce que je ne comprends pas, c'est ce que signifie la probabilité ? Et pourquoi le marginal AB

P(B|UNE)=P(UNE|B)P(B)P(UNE)
UNEB
probabilité au dénominateur?
Après avoir examiné quelques ressources, je suis tombé sur cette citation:

La probabilité est le poids de l'événement donné par l'occurrence de ... P (B | A) est la probabilité postérieure de l'événement B , étant donné que l'événement A s'est produit.A P ( B | A )BUNEP(B|UNE)ABUNE

Les 2 déclarations ci-dessus me semblent identiques, juste écrites de différentes manières. Quelqu'un peut-il expliquer la différence entre les deux?


4
Vous avez une faute de frappe (ou une idée fausse). B devrait être «l'hypothèse ou la croyance», et UNE devrait être les «données ou preuves» dans votre formulation.
gung - Rétablir Monica

1
voir ma réponse sur math.stackexchange.com/a/1943255/1505 c'est ainsi que j'ai fini par la comprendre intuitivement
Lyndon White

Réponses:


27

Bien qu'il y ait quatre composants énumérés dans la loi de Bayes, je préfère penser en termes de trois composants conceptuels:

P(B|UNE)2=P(UNE|B)P(UNE)3P(B)1
  1. Le prieur est ce que vous pensiez de avant d' avoir rencontré une nouvelle information pertinente (c'est-à-dire ). AB UNE
  2. Le postérieur est ce que vous croyez (ou devriez, si vous êtes rationnel) à propos de après avoir rencontré une nouvelle information pertinente. B
  3. Le quotient de la probabilité divisée par la probabilité marginale de la nouvelle information indexe le Informativité des nouvelles informations pour vos croyances au sujet . B

19

Il existe déjà plusieurs bonnes réponses, mais cela peut peut-être ajouter quelque chose de nouveau ...

Je pense toujours à la règle de Bayes en termes de probabilités composantes, qui peuvent être comprises géométriquement en termes d'événements et comme illustré ci-dessous.BUNEB

Ensembles d'événements

Les probabilités marginales et sont données par les aires des cercles correspondants. Tous les résultats possibles sont représentés par , correspondant à l'ensemble des événements " ou ". La probabilité conjointe correspond à l'événement " et ".P ( B ) P ( A B ) = 1 A B P ( A B ) A BP(UNE)P(B)P(UNEB)=1UNEB P(UNEB)UNEB

Dans ce cadre, les probabilités conditionnelles du théorème de Bayes peuvent être comprises comme des rapports d'aires. La probabilité de donné est la fraction de occupée par , exprimée comme De même, la probabilité de étant donné est la fraction de occupée par , c'est-à-dire B B A B P ( A | B ) = P ( A B )UNEBBUNEB BAAABP(B|A)=P(AB)

P(UNE|B)=P(UNEB)P(B)
BUNEUNEUNEB
P(B|UNE)=P(UNEB)P(UNE)

Le théorème de Bayes n'est vraiment qu'une conséquence mathématique des définitions ci-dessus, qui peuvent être reformulées comme I trouver cette forme symétrique du théorème de Bayes est beaucoup plus facile à retenir. C'est-à-dire que l'identité est valable quel que soit le ou le étiquetés "antérieurs" ou "postérieurs".p ( A ) p ( B )

P(B|UNE)P(UNE)=P(UNEB)=P(UNE|B)P(B)
p(UNE)p(B)

(Une autre façon de comprendre la discussion ci-dessus est donnée dans ma réponse à cette question , d'un point de vue plus "tableur comptable".)


9

@gung a une excellente réponse. J'ajouterais un exemple pour expliquer "l'initiation" dans un exemple du monde réel.

Pour une meilleure connexion avec des exemples du monde réel, je voudrais changer la notation, où utiliser pour représenter l'hypothèse (le dans votre équation), et utiliser pour représenter la preuve. (le dans votre équation.)A E BHUNEEB

La formule est donc

P(H|E)=P(E|H)P(H)P(E)

Notez que la même formule peut s'écrire

P(H|E)P(E|H)P(H)

où signifie proportionnel à et est la vraisemblance et est l'a priori . Cette équation signifie que le postérieur sera plus grand, si le côté droit de l'équation est plus grand. Et vous pouvez penser que est une constante de normalisation pour transformer le nombre en probabilité (la raison pour laquelle je dis que c'est une constante est parce que la preuve est déjà donnée.).P(E|H)P(H)P(E)E

Pour un exemple concret, supposons que nous effectuons une détection de fraude sur les transactions par carte de crédit. L'hypothèse serait alors où représenter la transaction est normale ou frauduleuse. (J'ai choisi un cas de déséquilibre extrême pour montrer l'intuition).H{0,1}

D'après la connaissance du domaine, nous savons que la plupart des transactions seraient normales, seules quelques-unes sont des fraudes. Supposons qu'un expert nous ait dit qu'il y en aurait sur serait une fraude. On peut donc dire que l'a priori est , et .11000P(H=1)=0,001P(H=0)=0,999

Le but ultime est de calculer ce qui signifie que nous voulons savoir si une transaction est une fraude non fondée sur des preuves en plus des précédentes . Si vous regardez le côté droit de l'équation, nous le décomposons en vraisemblance et avant .P(H|E)

Là où nous avons déjà expliqué ce qui est antérieur , nous expliquons ici ce qu'est la vraisemblance. Supposons que nous ayons deux types de preuves, qui représentent, si nous voyons une localisation géographique normale ou étrange de la transaction.E{0,1}

La probabilité peut être petite, ce qui signifie que dans le cas d'une transaction normale, il est très peu probable que l'emplacement soit étrange. En revanche, peut être grand.P(E=1|H=0)P(E=1|H=1)

Supposons que nous ayons observé nous voulons voir s'il s'agit d'une fraude ou non, nous devons considérer à la fois la probabilité et la probabilité . Intuitivement, par le passé, nous savons qu'il y a très peu de transactions de fraude, nous serions probablement très prudents pour faire une classification de fraude, à moins que les preuves ne soient très solides. Par conséquent, le produit entre deux considérera deux facteurs en même temps.E=1


Je pense qu'il peut y avoir une faute de frappe dans le précédent : devrait être et , non? 0,999 PP(H=0)0,999P(H=1)=0,001
gc5

1

Notez que la règle de Bayes est

P(une|b)=P(b,une)P(b)=P(b,une)P(b)P(une)P(une) .

Notez le ratio

P(b,une)P(b)P(une).

Si , alors . C'est presque comme si nous disions à quel point le joint s'écarte de la pleine indépendance, ou combien d'informations les variables ont en commun.BUNEP(b,une)=P(b)P(une)

Fait intéressant, le journal de ce rapport est également présent dans les informations mutuelles:

je(UNE|B)=une,bP(une,b)JournalP(b,une)P(b)P(une)


0

Je trouve souvent la visualisation du théorème sous forme de tableau, avec les résultats possibles pour "B" comme lignes et les résultats possibles pour "A" comme colonnes. Les probabilités conjointes sont les valeurs de chaque cellule. Dans ce tableau, nous avonsP(UNE,B)

vraisemblance = proportions de lignes postérieures = proportions de colonnes

L'ancien et le marginal sont définis de façon analogue, mais basés sur des «totaux» au lieu d'une colonne particulière

marginal = proportions totales de la ligne a priori = proportions totales de la colonne

Je trouve que cela m'aide.

En utilisant notre site, vous reconnaissez avoir lu et compris notre politique liée aux cookies et notre politique de confidentialité.
Licensed under cc by-sa 3.0 with attribution required.