Toute probabilité postérieure est valable dans ce cas
C'est une question intéressante, qui entre dans le territoire des fondements de la probabilité. Il existe quelques approches possibles ici, mais pour des raisons que j'expliquerai bientôt, l'approche que je préfère est de donner une définition plus large de la probabilité conditionnelle qui est analogue à sa définition lorsqu'il s'agit de variables aléatoires continues. (Les détails de cette méthode sont présentés ci-dessous.) Dans ce cas particulier, cela conduit à la conclusion que le bayésien peut avoir n'importe quelle croyance postérieure concernantX, et cela donne un ensemble cohérent de croyances (bien qu'ils aient observé un événement qu'ils croient avoir une probabilité nulle).
L'avantage de cette approche est qu'elle donne une distribution postérieure bien définie, et permet au bayésien de mettre à jour ses croyances à condition d'observer un événement qui devait se produire avec une probabilité nulle. Le postérieur est mis à jour essentiellement arbitrairement (toute probabilité postérieure est également cohérente), mais cette flexibilité n'est pas surprenante compte tenu de ce qui s'est produit. Dans ce cas, différents bayésiens ayant les mêmes croyances antérieures pourraient légitimement tirer des conclusions postérieures différentes, du fait qu'ils ont tous observé un événement avec une probabilité nulle a priori .
Probabilité conditionnelle pour les variables aléatoires continues: Lorsque nous avons affaire à des variables aléatoires continues, la fonction de probabilité conditionnelle est définie par la dérivée de Radon-Nikodym , et nécessite essentiellement que la fonction satisfasse à la loi de probabilité conjointe. SiX et E étaient des variables aléatoires continues (plutôt que des événements discrets) dans un espace de probabilité ( Ω , G, P) alors nous définirions la fonction de probabilité conditionnelle p(x|e) comme toute fonction mesurable non négative qui satisfait l'équation intégrale:
p(x)=∫Ep(x|e) dP(e)for all x∈X∈G.
Depuis p(x) est également défini via le dérivé Radon-Nikodym, cela signifie implicitement que p(x|e) peut être n'importe quelle fonction mesurable non négative qui satisfait l'équation intégrale:
P(X∈A)=∫A∫Ep(x|e) dP(e) dxfor all A∈G.
Cela donne une solution non unique pour la fonction de probabilité conditionnelle, bien qu'en pratique, chaque solution soit "presque sûrement" équivalente (c'est-à-dire qu'elle ne diffère que sur un ensemble de résultats avec une probabilité nulle), donc il n'y a pas de problème avec la non-unicité .
Définition de la probabilité conditionnelle pour les événements discrets: La définition standard de la probabilité conditionnelle pour les événements discrets est la formule de ratio bien connue, où le dénominateur est la probabilité de l'événement de conditionnement. Évidemment, dans le cas où l'événement de conditionnement a une probabilité nulle, cet objet n'est pas défini. La solution évidente ici est d'élargir la définition d'une manière analogue à la méthode utilisée dans le cas continu. Autrement dit, nous définissons la paire de probabilités conditionnelleP(X|E) et P(X|E¯) comme toute paire de valeurs entre zéro et un qui satisfont l'équation:
P(X)=P(X|E)×P(E)+P(X|E¯)×(1−P(E)).
Dans le cas stipulé dans la question, nous avons la conviction préalable P(X)=1 et la distribution d'échantillonnage P(E|X)=0, qui conduit à P(E)=0. La substitution de ces valeurs dans l'équation ci-dessus donne:
1=P(X|E)×0+P(X|E¯)×1.
Nous pouvons voir que cette équation est satisfaite en prenant P (X|E¯) = 1 et n'importe quel 0 ⩽ P ( X| E) ⩽ 1. Ainsi, la probabilité conditionnelle (postérieure)P (X| E)peut être de façon cohérente toute valeur comprise entre zéro et un. Lorsque nous disons que cela est "cohérent", nous voulons simplement dire que la probabilité postérieure n'est pas incompatible avec les autres probabilités stipulées dans le problème (c'est-à-dire les probabilités a priori et d'échantillonnage).
Pourquoi cette approche est la plus logique: Il est tout à fait possible qu'une analyse bayésienne puisse impliquer l'observation d'un événement discret qui a une probabilité nulle stipulée dans la distribution précédente. Par exemple, dans un modèle standard de retournement de pièces, nous stipulons une distribution de Bernoulli pour le résultat des têtes / queues, mais il est possible que la pièce se pose sur son bord (n'étant donc ni têtes ni queues). Les cerveaux ne devraient pas exploser dans ce cas, et il incombe donc au raisonnement bayésien d'avoir une manière bien définie de procéder dans ce cas.
Le principal avantage de l'approche que j'ai décrite est qu'elle conduit toujours à au moins une valeur admissible pour la probabilité postérieure (c'est-à-dire que la probabilité postérieure est bien définie ). La probabilité postérieure n'est pas définie de manière unique, mais c'est une conséquence naturelle du fait qu'il existe plusieurs valeurs qui sont également cohérentes avec l'observation d'échantillonnage à probabilité nulle. Cette approche signifie que le bayésien est libre de stipuler toute probabilité postérieure, et cela est aussi cohérent que les autres. (Gardez à l'esprit que lorsque nous disons «cohérent» ici, nous parlons de cohérence avec une croyance antérieure qui stipulait une probabilité nulle pour un événement discret qui s'est réellement produit, donc la cohérence avec cela n'est pas une barre haute!)
Il y a un autre avantage majeur à cette approche , qui est qu'elle permet au bayésien de mettre à jour ses croyances en réponse à l'observation d'un événement qui n'avait aucune probabilité d'échantillonnage sous le précédent, et en particulier, le bayésien peut maintenant réviser ses croyances de sorte qu'ils n'attribuent plus de probabilité nulle à cet événement . Dans l'exemple que vous donnez, le Bayésien avait auparavant la conviction queXest vrai presque sûrement, buy a ensuite observé un événement avec une probabilité d'échantillonnage nulle conditionnelle à cet événement. Maintenant, le Bayésien est libre de mettre à jour sa croyance à une probabilité postérieure pourX ce n'est pas un (et donc une probabilité postérieure correspondante pourX¯ce n'est pas zéro). Donc, en substance, le Bayésien peut maintenant dire "Oh merde! C'était une idiote avant! Permettez-moi de mettre à jour ma croyance en cet événement afin qu'il ne se produise plus presque sûrement!" De plus, il ne s'agit pas d'un changement ponctuel , mais d'une mise à jour «cohérente» légitime effectuée selon le théorème de Bayes.