Je pense que la meilleure façon d'expliquer la notion de probabilité est peut-être de considérer un exemple concret. Supposons que je dispose d'un échantillon d'observations IID tirées d'une distribution de Bernoulli avec une probabilité de réussite inconnuep: Xi∼Bernoulli(p), i=1,…,n, de sorte que la fonction de masse de probabilité conjointe de l'échantillon est
Pr[X=x∣p]=∏i=1npxi(1−p)1−xi.
Cette expression caractérise également la probabilité de , étant donné un échantillon observé : Mais si nous considérons comme une variable aléatoire, cette probabilité n'est pas une densité: Elle est cependant
proportionnelle à une densité de probabilité, c'est pourquoi nous disons que c'est une probabilité que soit une valeur particulière compte tenu de l'échantillon - elle représente, dans un certain sens, la plausibilité relative de étant une certaine valeur pour les observations que nous avons faites.
px=(x1,…,xn)L(p∣x)=∏i=1npxi(1−p)1−xi.
p∫1p=0L(p∣x)dp≠1.
pp
Par exemple, supposons et l'échantillon était . Intuitivement, nous conclurions que est plus susceptible d'être plus proche de que de , car nous en avons observé plus. En effet, nous avons Si nous traçons cette fonction sur , nous pouvons voir comment la vraisemblance confirme notre intuition. Bien sûr, nous ne savons pas que la vraie valeur de aurait pu être plutôt que , mais la fonction de vraisemblance nous indique que la première est beaucoup moins probable que la seconde. Mais si nous voulons déterminer une probabilitén=5x=(1,1,0,1,1)p10
L(p∣x)=p4(1−p).
p∈[0,1]pp=0.25p=0.8que se situe dans un certain intervalle, nous devons normaliser la vraisemblance: puisque , il s'ensuit que dans pour obtenir une
densité postérieure pour , il faut multiplier par : En fait, ce postérieur est une distribution bêta avec les paramètres . Maintenant, les zones sous la densité correspondent aux probabilités.
p∫1p=0p4(1−p)dp=130p30fp(p∣x)=30p4(1−p).
a=5,b=2
Donc, ce que nous avons essentiellement fait ici est la règle de Bayes appliquée: Ici, est une distribution antérieure sur le (s) paramètre (s) , le numérateur est la probabilité qui est également la distribution conjointe de
fΘ(θ∣x)=fX(x∣θ)fΘ(θ)fX(x).
fΘ(θ)θL(θ∣x)=fX(x∣θ)fΘ(θ)=fX,Θ(x,θ)X,Θ , et le dénominateur est la densité marginale (inconditionnelle) de , obtenue en intégrant la distribution conjointe par rapport à pour trouver la constante de normalisation qui fait de la probabilité une densité de probabilité avec par rapport au (x) paramètre (s). Dans notre exemple numérique, nous avons implicitement pris l'a priori pour que soit uniforme sur . On peut montrer que, pour un échantillon de Bernoulli, si l'a priori est , le postérieur de est aussi Beta, mais avec les paramètres ,
XθfΘ[0,1]Beta(a,b)fΘa∗=a+∑xib∗=b+n−∑xi. Nous appelons un tel
conjugué antérieur (et nous nous référons à cela comme une paire de conjugués Bernoulli-Beta).