Quelqu'un peut-il expliquer les prieurs conjugués en termes les plus simples possibles?

23

Cela fait un moment que j'essaie de comprendre l'idée des prieurs conjugués dans les statistiques bayésiennes, mais je ne comprends tout simplement pas. Quelqu'un peut-il expliquer l'idée dans les termes les plus simples possibles, en utilisant peut-être le «prior gaussien» comme exemple?

bayesian conditional-probability conjugate-prior

— Jenna Maiz
source

23

Un a priori pour un paramètre aura presque toujours une forme fonctionnelle spécifique (écrite en termes de densité, généralement). Disons que nous nous limitons à une famille particulière de distributions, auquel cas le choix de notre a priori se réduit au choix des paramètres de cette famille.

Par exemple, considérons un modèle normal $Y_i \stackrel{_\text{iid}}{\sim} N(\mu,\sigma^2)$ . Pour simplifier, prenons aussi $\sigma^2$ comme connu. Cette partie du modèle - le modèle des données - détermine la fonction de vraisemblance.

Pour compléter notre modèle bayésien, nous avons besoin ici d'un a priori pour $\mu$ .

Comme mentionné ci-dessus, nous pouvons généralement spécifier une famille de distribution pour notre a priori pour $\mu$ , puis nous n'avons qu'à choisir les paramètres de cette distribution (par exemple, souvent les informations antérieures peuvent être assez vagues - comme à peu près où nous voulons que la probabilité se concentre - plutôt que de forme fonctionnelle très spécifique, et nous pouvons avoir assez de liberté pour modéliser ce que nous voulons en choisissant les paramètres - disons pour correspondre à une moyenne et une variance antérieures).

S'il s'avère que le postérieur de $\mu$ appartient à la même famille que le précédent, alors ce prior est dit «conjugué».

(Ce qui fait qu'il est conjugué, c'est la façon dont il se combine avec la probabilité)

Donc dans ce cas, prenons un a priori gaussien pour $\mu$ (disons $\mu\sim N(\theta,\tau^2)$ ). Si nous faisons cela, nous voyons que le postérieur de $\mu$ est également gaussien. Par conséquent, le prieur gaussien était un prieur conjugué pour notre modèle ci-dessus.

C'est tout ce qu'il y a vraiment - si le postérieur est de la même famille que le prieur, c'est un prieur conjugué.

Dans les cas simples, vous pouvez identifier un conjugué avant en inspectant la probabilité. Par exemple, considérons une vraisemblance binomiale; en laissant tomber les constantes, cela ressemble à une densité bêta en ; et en raison de la façon dont les puissances de et combinent, il se multipliera par une bêta avant de donner également un produit des puissances de et ... afin que nous puissions voir immédiatement de la probabilité que la bêta sera un conjugué a priori pour dans la vraisemblance binomiale. $p$ $p$ $(1-p)$ $p$ $(1-p)$ $p$

Dans le cas gaussien, il est plus facile de voir que cela se produira en considérant les log-densités et la log-vraisemblance; la log-vraisemblance sera quadratique en et la somme de deux quadratiques est quadratique, donc une log-vraisemblance quadratique antérieure + quadratique log donne une quadratique postérieure (chacun des coefficients du terme d'ordre le plus élevé sera bien sûr négatif). $\mu$

— Glen_b -Reinstate Monica
source

9

Si votre modèle appartient à une famille exponentielle , c'est-à-dire si la densité de la distribution est de la forme

f (x | θ) = h (x) \exp {T (θ) \cdot S (x) - ψ (θ)} x \in X θ \in Θ

$f(x|\theta)=h(x)\exp\{T(\theta)\cdot S(x)-\psi(\theta)\}\qquad x\in\mathcal{X}\quad\theta\in\Theta$ par rapport à unemesure dominante donnée(Lebesgue, comptage, & tc.), où

t \cdot s

$t\cdot s$ désigne un produit scalaire sur

R^{d}

$\mathbb{R}^d$ et

T : X ⟶ R^{d} S : Θ ⟶ R^{d}

$T:\mathcal{X}\longrightarrow \mathbb{R}^d\qquad S:\Theta\longrightarrow \mathbb{R}^d$ sont des fonctions mesurables, les a priori conjugués sur

θ

$\theta$ sont définis par des densités de la forme

π (θ | ξ, λ) = C (ξ, λ) \exp {T (θ) \cdot ξ - λ ψ (θ)}

$\pi(\theta|\xi,\lambda)=C(\xi,\lambda)\exp\{T(\theta)\cdot \xi-\lambda\psi(\theta)\}$ [par rapport à une mesure dominante choisie arbitrairement

sur

] avec

d ν

$\text{d}\nu$

Θ

$\Theta$

C (ξ, λ)^{- 1} = \int_{Θ} \exp {T (θ) \cdot ξ - λ ψ (θ)} d ν < \infty

$C(\xi,\lambda)^{-1}=\int_\Theta \exp\{T(\theta)\cdot \xi-\lambda\psi(\theta)\} \text{d}\nu<\infty$ et

λ \in Λ \subset R_{+}

$\lambda\in\Lambda\subset\mathbb{R}_+$ ,

ξ \in Ξ \subset λ T (X)

$\xi\in\Xi\subset \lambda T(\mathcal{X})$

Le choix de la mesure dominante est déterminant pour la famille des prieurs. Si, par exemple, on fait face à une probabilité moyenne normale sur $\mu$ comme dans la réponse de Glen_b , le choix de la mesure de Lebesgue $\text{d}\mu$ comme mesure dominante conduit à la conjugaison des a priori normaux. Si au contraire on choisit $(1+\mu^2)^{-2}\text{d}\mu$ comme mesure dominante, les a priori conjugués sont dans la famille des distributions de densités

\exp {- α (μ - μ_{0})^{2}} α > 0, μ_{0} \in R

$\exp\{-\alpha(\mu-\mu_0)^2\} \qquad\alpha>0,\ \ \mu_0\in\mathbb R$ par rapport à cette mesure dominante, et ne sont donc plus des a priori normaux. Cette difficulté est essentiellement la même que celle de choisir une paramétrisation particulière de la vraisemblance et d'opter pour la mesure de Lebesgue pour cette paramétrisation. Face à une fonction de vraisemblance, il n'y a pas de mesure dominante inhérente (ou intrinsèque ou de référence) sur l'espace des paramètres.

En dehors de ce cadre familial exponentiel, il n'y a pas de famille de distributions non triviale avec un support fixe qui permet des a priori conjugués. C'est une conséquence du lemme Darmois-Pitman-Koopman .

— Xi'an
source

11

"en termes les plus simples possibles?" Une explication qui ne suppose pas une connaissance préalable des mesures serait peut-être plus utile au PO.

3

hélas, je crains que les prieurs conjugués soient dénués de sens sans arrière-plan de mesure (même si c'est le secret le mieux gardé de l'Univers).

— Xi'an

6

À mon avis, les "termes les plus simples possibles" sont susceptibles d'interprétation, et une explication qui utilise des mathématiques avancées telles que la théorie de la mesure pourrait toujours être "simple" dans un certain sens, peut-être même "plus simple" qu'une explication qui évite de tels mécanismes. Dans tous les cas, une telle explication peut être très éclairante pour quelqu'un qui a les antécédents nécessaires pour la comprendre, et il est inoffensif d'inclure une réponse comme celle-ci dans une liste de différentes façons d'expliquer un sujet. Nous écrivons des réponses non seulement pour OP mais pour tous les futurs lecteurs.

— littleO

1

@LBogaardt Votre critique aurait plus de poids si vous pouviez créer un lien vers une ou plusieurs questions où vous pensez que cette réponse serait à la fois sur le sujet et à un niveau plus approprié. Veuillez garder à l'esprit que "simple" n'est pas un terme bien défini et a des interprétations subjectives différentes. Quoi qu'il en soit, il serait invalide de le confondre avec «mathématiquement peu sophistiqué», comme le suggèrent vos commentaires.

— whuber

2

La réponse de Xi'an ne m'est pas inutile. J'ai appris quelque chose.

— littleO

2

I like using the notion of a "kernel" of a distribution. This is where you only leave in the parts that depend on the parameter. A few simple examples.

p (μ | a, b) = K^{- 1} \times \exp (a μ^{2} + b μ)

$p(\mu|a,b) = K^{-1} \times \exp(a\mu^2 +b\mu)$

K

$K$

K = \int \exp (a μ^{2} + b μ) d μ = \sqrt{\frac{π}{- a}} \exp (- \frac{b^{2}}{4 a})

$K=\int \exp(a\mu^2 +b\mu)d\mu=\sqrt{\frac{\pi}{-a}}\exp(-\frac{b^2}{4a})$ The connection with standard mean/variance parameters is

E (μ | a, b) = - \frac{b}{2 a}

$E(\mu|a,b)=-\frac{b}{2a}$ and

V a r (μ | a, b) = - \frac{1}{2 a}

$Var(\mu|a,b)=-\frac{1}{2a}$

Beta kernel

p (θ | a, b) = K^{- 1} \times θ^{a} (1 - θ)^{b}

$p(\theta|a,b)=K^{-1}\times \theta^a (1-\theta)^b$ Where

K = \int θ^{a} (1 - θ)^{b} d θ = B e t a (a + 1, b + 1)

$K=\int \theta^a (1-\theta)^b d\theta = Beta(a+1,b+1)$

When we look at the likelihood function, we can do the same thing, and express it in "kernel form". For example with iid data

p (D | μ) = \prod_{i = 1}^{n} p (x_{i} | μ) = Q \times f (μ)

$p(D|\mu)=\prod_{i=1}^n p(x_i|\mu)=Q\times f(\mu)$

For some constant $Q$ and some function $f(\mu)$ . If we can recognise this function as a kernel, then we can create a conjugate prior for that likelihood. If we take the normal likelihood with unit variance, the above looks like

p (D | μ) = \prod_{i = 1}^{n} p (x_{i} | μ) = \prod_{i = 1}^{n} \frac{1}{\sqrt{2 π}} \exp (- \frac{(x_{i} - μ)^{2}}{2}) = [\prod_{i = 1}^{n} \frac{1}{\sqrt{2 π}}] \times \prod_{i = 1}^{n} \exp (- \frac{(x_{i} - μ)^{2}}{2}) = (2 π)^{- \frac{n}{2}} \times \exp (- \sum_{i = 1}^{n} \frac{(x_{i} - μ)^{2}}{2}) = (2 π)^{- \frac{n}{2}} \times \exp (- \sum_{i = 1}^{n} \frac{x_{i}^{2} - 2 x_{i} μ + μ^{2}}{2}) = (2 π)^{- \frac{n}{2}} \times \exp (- \sum_{i = 1}^{n} \frac{x_{i}^{2}}{2}) \times \exp (μ \sum_{i = 1}^{n} x_{i} - μ^{2} \frac{n}{2}) = Q \times \exp (a μ^{2} + b μ)

$p(D|\mu) =\prod_{i=1}^n p(x_i|\mu) =\prod_{i=1}^n \frac{1}{\sqrt{2\pi}}\exp(-\frac{(x_i-\mu)^2}{2}) =\left[\prod_{i=1}^n \frac{1}{\sqrt{2\pi}}\right]\times \prod_{i=1}^n \exp(-\frac{(x_i-\mu)^2}{2}) =(2\pi)^{-\frac{n}{2}}\times\exp(-\sum_{i=1}^n\frac{(x_i-\mu)^2}{2}) =(2\pi)^{-\frac{n}{2}}\times\exp(-\sum_{i=1}^n\frac{x_i^2-2x_i\mu+\mu^2}{2}) =(2\pi)^{-\frac{n}{2}}\times\exp(-\sum_{i=1}^n\frac{x_i^2}{2})\times\exp(\mu\sum_{i=1}^n x_i-\mu^2\frac{n}{2}) =Q\times \exp(a\mu^2 +b\mu)$

where $a=-\frac{n}{2}$ and $b=\sum_{i=1}^n x_i$ and $Q=(2\pi)^{-\frac{n}{2}}\times\exp(-\sum_{i=1}^n\frac{x_i^2}{2})$

This likelihood function has the same kernel as the normal distribution for $\mu$ , so a conjugate prior for this likelihood is also the normal distribution.

p (μ | a_{0}, b_{0}) = K_{0}^{- 1} \exp (a_{0} μ^{2} + b_{0} μ)

$p(\mu|a_0,b_0)=K_0^{-1}\exp(a_0\mu^2 +b_0\mu)$ The posterior is then

p (μ | D, a_{0}, b_{0}) \propto K_{0}^{- 1} \exp (a_{0} μ^{2} + b_{0} μ) \times Q \times \exp (a μ^{2} + b μ) = K_{0}^{- 1} \times Q \times \exp ([a + a_{0}] μ^{2} + [b + b_{0}] μ) \propto \exp ([a + a_{0}] μ^{2} + [b + b_{0}] μ)

$p(\mu|D,a_0,b_0)\propto K_0^{-1}\exp(a_0\mu^2 +b_0\mu)\times Q\times \exp(a\mu^2 +b\mu)=K_0^{-1}\times Q\times \exp([a+a_0]\mu^2 +[b+b_0]\mu)\propto\exp([a+a_0]\mu^2 +[b+b_0]\mu)$ Showing that the posterior is also a normal distribution, with updated parameters from the prior using the information in the data.

In some sense a conjugate prior acts similarly to adding "pseudo data" to the data observed, and then estimating the parameters.

— probabilityislogic
source

1

(+1) I appreciate the pseudo-data intuition!

— Xi'an

1

For a given distribution family $D_{lik}$ of the likelihood (e.g. Bernoulli),

if the prior is of the same distribution family $D_{pri}$ as the posterior (e.g. Beta),

then $D_{pri}$ and $D_{lik}$ are conjugate distribution families and the prior is called a conjugate prior for the likelihood function.

Note: $\underbrace{p(\theta|x)}_{\text{posterior}} \sim \underbrace{p(x|\theta)}_{\text{likelihood}} \cdot \underbrace{p(\theta)}_{\text{prior}}$

— Thomas G.
source

How does this explain what a conjugate prior is?

— LBogaardt

ok I'll edit that.

— Thomas