Comprendre le conjugué bêta avant dans l'inférence bayésienne sur une fréquence

11

Voici un extrait de l' introduction de Bolstad aux statistiques bayésiennes .

Pour tous les experts, cela pourrait être trivial, mais je ne comprends pas comment l'auteur conclut que nous n'avons pas à faire d'intégration pour calculer la probabilité postérieure d'une certaine valeur de . Je comprends la deuxième expression qui est la proportionnalité et d'où viennent tous les termes ( vraisemblance x Prior) . De plus, je comprends, nous n'avons pas à nous soucier du dénominateur puisque seul le numérateur est directement proportionnel. Mais pour passer à la troisième équation , n'oublions-nous pas le dénominateur de la règle de Bayes? Où est-il allé ? Et la valeur calculée par les fonctions Gamma, n'est-ce pas une constante? Les constantes ne s'annulent-elles pas dans le théorème de Bayes? $\pi$

— Jenna Maiz
source

5

Il n'y a qu'une seule constante possible, celle qui fait de la fonction une densité de probabilité.

— Xi'an

10

Le fait est que nous savons à quoi le postérieur est proportionnel et il se trouve que nous n'avons pas besoin de faire l'intégration pour obtenir le dénominateur (constant), car nous reconnaissons qu'une distribution avec une fonction de densité de probabilité proportionnelle à (comme le postérieur) est une distribution bêta. Puisque la constante de normalisation pour un tel pdf bêta est , nous obtenons le pdf postérieur sans intégration. Et oui, la constante de normalisation dans le théorème de Bayes est une constante (étant donné les données observées et l'hypothèse a priori) tout comme la constante de normalisation pour la densité postérieure. $x^{\alpha-1} \times (1-x)^{\beta-1}$ $\frac{\Gamma(\alpha+\beta)}{\Gamma(\alpha)\Gamma(\beta)}$

— Björn
source

8

La mise en place

Vous avez ce modèle: Les densités pour lesquelles sont et notez en particulier que

\begin{aligned} p & \sim beta (α, β) \\ x | p & \sim binomial (n, p) \end{aligned}

$\begin{align*} p & \, \sim \, \text{beta}(\alpha, \beta) \\ x \, | \, p & \, \sim \, \text{binomial}(n, p) \end{align*}$

f (p) = \frac{1}{B (α, β)} p^{α - 1} (1 - p)^{β - 1}

$\begin{equation*} f(p) = \frac{1}{B(\alpha, \beta)} p^{\alpha - 1} (1 - p)^{\beta - 1} \end{equation*}$

g (x | p) = (\binom{n}{x}) p^{x} (1 - p)^{n - x}

$\begin{equation*} g(x \, | \, p) = {n \choose x} p^x (1 - p)^{n - x} \end{equation*}$

\frac{1}{B (α, β)} = \frac{Γ (α + β)}{Γ (α) Γ (β)} .

$\begin{equation*} \frac{1}{B(\alpha, \beta)} = \frac{\Gamma(\alpha + \beta)}{\Gamma(\alpha)\Gamma(\beta)}. \end{equation*}$

La version implicite

Maintenant. La distribution postérieure est proportionnelle au précédent multiplié par la probabilité . Nous pouvons ignorer les constantes (c'est-à-dire les choses qui ne sont pas ), produisant: $f$ $g$ $p$

\begin{aligned} h (p | x) & \propto f (p) g (p | x) \\ = p^{α - 1} (1 - p)^{β - 1} p^{x} p^{n - x} \\ = p^{α + x - 1} (1 - p)^{β + n - x - 1} . \end{aligned}

$\begin{align*} h(p \, | \, x) & \propto f(p) g(p \, | \, x) \\ & = p^{\alpha - 1} (1 - p)^{\beta - 1} p^x p^{n - x} \\ & = p^{\alpha + x - 1} (1 - p)^{\beta + n - x - 1}. \end{align*}$

Cela a la «forme» d'une distribution bêta avec les paramètres et , et nous savons quelle devrait être la constante de normalisation correspondante pour une distribution bêta avec ces paramètres: . Ou, en termes de fonctions gamma, En d'autres termes, nous pouvons faire un peu mieux qu'une relation proportionnelle sans travail supplémentaire, et aller directement à l'égalité: $\alpha + x$ $\beta + n - x$ $1 / B(\alpha + x, \beta + n - x)$

\frac{1}{B (α + x, β + n - x)} = \frac{Γ (n + α + β)}{Γ (α + x) Γ (β + n - x)} .

$\begin{equation*} \frac{1}{B(\alpha + x, \beta + n - x)} = \frac{\Gamma(n + \alpha + \beta)}{\Gamma(\alpha + x)\Gamma(\beta + n - x)}. \end{equation*}$

h (p | x) = \frac{Γ (n + α + β)}{Γ (α + x) Γ (β + n - x)} p^{α + x - 1} (1 - p)^{β + n - x - 1} .

$\begin{equation*} h(p \, | \, x) = \frac{\Gamma(n + \alpha + \beta)}{\Gamma(\alpha + x)\Gamma(\beta + n - x)} p^{\alpha + x - 1} (1 - p)^{\beta + n - x - 1}. \end{equation*}$

Donc, on peut utiliser la connaissance de la structure d'une distribution bêta pour récupérer facilement une expression pour la partie postérieure, plutôt que de passer par une intégration désordonnée et autres.

Il se déplace en quelque sorte vers la partie postérieure complète en annulant implicitement les constantes de normalisation de la distribution articulaire, ce qui peut être déroutant.

La version explicite

Vous pouvez également rectifier les choses de manière procédurale, ce qui peut être plus clair.

Ce n'est pas vraiment beaucoup plus long. Notez que nous pouvons exprimer la distribution conjointe comme et la distribution marginale de as

\begin{aligned} f (p) g (x | p) = \frac{1}{B (α, β)} (\binom{n}{x}) p^{α + x - 1} (1 - p)^{β + n - x - 1} \end{aligned}

$\begin{align*} f(p)g(x \, | \, p) = \frac{1}{B(\alpha, \beta)}{n \choose x} p^{\alpha + x - 1} (1 - p)^{\beta + n - x - 1} \end{align*}$

x

$x$

\begin{aligned} \int_{0}^{1} f (p) g (x | p) d p & = \frac{1}{B (α, β)} (\binom{n}{x}) \int_{0}^{1} p^{α + x - 1} (1 - p)^{β + n - x - 1} d p \\ = \frac{1}{B (α, β)} (\binom{n}{x}) \frac{Γ (α + x) Γ (β + n - x)}{Γ (α + β + n - x)} \end{aligned}

$\begin{align*} \int_{0}^{1}f(p)g(x \, | \, p)dp & = \frac{1}{B(\alpha, \beta)}{n \choose x} \int_{0}^{1} p^{\alpha + x - 1} (1 - p)^{\beta + n - x - 1} dp \\ & = \frac{1}{B(\alpha, \beta)}{n \choose x} \frac{\Gamma(\alpha + x)\Gamma(\beta + n - x)}{\Gamma(\alpha + \beta + n - x)} \end{align*}$

Nous pouvons donc exprimer le postérieur en utilisant le théorème de Bayes par qui est la même chose que nous avons eu précédemment.

\begin{aligned} h (p | x) & = \frac{f (p) g (x | p)}{\int_{0}^{1} f (p) g (x | p) d p} \\ = \frac{\frac{1}{B (α, β)} (\binom{n}{x}) p^{α + x - 1} (1 - p)^{β + n - x - 1}}{\frac{1}{B (α, β)} (\binom{n}{x}) \frac{Γ (α + x) Γ (β + n - x)}{Γ (α + β + n)}} \\ = \frac{Γ (n + α + β)}{Γ (α + x) Γ (β + n - x)} p^{α + x - 1} (1 - p)^{β + n - x - 1} \end{aligned}

$\begin{align*} h(p \, | \, x) & = \frac{f(p) g(x \, | \, p)}{\int_{0}^{1}f(p) g(x \, | \, p)dp} \\ & = \frac{\frac{1}{B(\alpha, \beta)}{n \choose x} p^{\alpha + x - 1} (1 - p)^{\beta + n - x - 1}}{\frac{1}{B(\alpha, \beta)}{n \choose x} \frac{\Gamma(\alpha + x)\Gamma(\beta + n - x)}{\Gamma(\alpha + \beta + n)}} \\ & = \frac{\Gamma(n + \alpha + \beta)}{\Gamma(\alpha + x)\Gamma(\beta + n - x)} p^{\alpha + x - 1} (1 - p)^{\beta + n - x - 1} \end{align*}$

— jtobin
source

7

Remarques générales

Pour la réponse donnée par @ Björn un peu plus explicite et dans le même temps plus général, nous devons nous rappeler que nous sommes arrivés au théorème de Bayes de

$p(\theta|X) \times p(X) = p(X,\theta)=p(X|\theta)\times p(\theta)$

$\implies p(\theta|X) = \frac{p(X|\theta)\times p(\theta)}{p(X)}$ (Bayes Thereom)

où représente les données observées et notre paramètre inconnu, nous aimerions faire des inférences probabilistes - dans le cas de la question, le paramètre est une fréquence inconnue . Ne nous inquiétons pas pour l'instant si nous parlons de vecteurs ou de scalaires pour rester simple. $X$ $\theta$ $\pi$

La marginalisation dans le cas continu conduit à

$p(X) = \int_{-\infty}^{+\infty}{p(X,\theta)d\theta}=\int_{-\infty}^{+\infty}{p(X|\theta)\times p(\theta)d\theta}$

où la distribution conjointe est égale à la comme nous l'avons vu ci-dessus. C'est une constante car après avoir «intégré» le paramètre, il ne dépend que de termes constants . $p(X,\theta)$ $likelihood \times prior$

Par conséquent, nous pouvons reformuler le théorème de Bayes comme

$p(\theta|X) = Const. \times p(X|\theta)\times p(\theta)$ avec $Const. = \frac{1}{p(X)} = \frac{1}{\int{p(X|\theta)\times p(\theta)d\theta}}$

et ainsi arriver à la forme de proportionnalité habituelle du théorème de Bayes .

Application au problème d'une main

Maintenant, nous sommes prêts à simplement brancher ce que nous savons car la dans le cas de la question est de la forme $likelihood \times prior$

$p(X,\theta)= p(X|\theta)\times p(\theta) = A \cdot \theta^{\,a + y - 1}(1-\theta)^{b + n - y - 1} = A\cdot \theta^{\,a' - 1}(1-\theta)^{b' - 1}$

où , et où recueille les termes constants de la vraisemblance binomiale et de la bêta avant. $a' = a+y$ $b' = b+n-y$ $A = \frac{1}{B(a,b)}\binom{n}{y}$

Nous pouvons maintenant utiliser la réponse donnée par @ Björn pour trouver que cela intègre à la fonction Bêta fois la collection de termes constants sorte que $B(a',b')$ $A$

$p(X) = A\cdot\int_0^1{\theta^{\,a' - 1}(1-\theta)^{b' - 1}d\theta}=A\cdot B(a',b')$

$\implies p(\theta|X) = \frac{A\cdot\theta^{\,a' - 1}(1-\theta)^{b' - 1}}{A\cdot B(a',b')}=\frac{\theta^{\,a' - 1}(1-\theta)^{b' - 1}}{B(a',b')}$

Notez que tout terme constant dans la distribution conjointe sera toujours annulé, car il apparaîtra en même temps dans le nominateur et le dénominateur (cf. la réponse donnée par @jtobin), donc nous n'avons vraiment pas à nous embêter.

Ainsi, nous reconnaissons que notre distribution postérieure est en fait une distribution bêta où nous pouvons simplement mettre à jour les paramètres de l'a priori et pour arriver à la position postérieure. C'est pourquoi le prieur distribué bêta est appelé prieur conjugué . $a' = a+y$ $b' = b+n-y$

— gwr
source

Ce raisonnement est similaire à la version implicite de jtobin. Nous examinons uniquement les parties des temps de vraisemblance antérieures qui contiennent le paramètre et collectons tout le reste dans la constante de normalisation. Ainsi, nous considérons l'intégration uniquement comme une étape finale qui est légitime, car les constantes s'annulent comme jtobin l'a montré dans sa version explicite.

— gwr