Antérieur non conjugué

Quelqu'un peut-il expliquer pourquoi l'intégrale dans la densité postérieure peut ne pas être «analytiquement traitable» si l'a priori que nous choisissons n'est pas conjugué?

bayesian

Considérons le modèle Binomia: il n'est pas possible de trouver une expression analytique pour l'intégrale pour chaque précédent .

\int_{0}^{1} θ^{x} (1 - θ)^{n - x} π (θ) d θ

$\int_0^1 \theta^x (1-\theta)^{n-x} \pi(\theta)\,d\theta$

π (θ)

$\pi(\theta)$

— Zen

@Zen qui vaut probablement la peine d'être développé (juste un peu; vous couvrez essentiellement le problème sous-jacent) en une réponse.

— Glen_b -Reinstate Monica

Vous avez raison à 100%, @Glen_b, mais je ne sais pas comment expliquer cela. Le fait est que si le postérieur est de la même famille, nous ne faisons pas du tout l'intégration. Nous identifions simplement le "noyau" de la densité. C'est quelque chose qui devient clair lorsque nous le faisons plusieurs fois.

— Zen

Pas de soucis @Zen, je vais hasarder une réponse.

— Glen_b -Reinstate Monica

La conjugaison est agréable car cela signifie que si vous pouvez gérer le pdf dans le précédent, vous devriez pouvoir faire de même avec le postérieur (car ils sont de la même forme) - mais bien sûr, parfois, vous voulez un prior qui est non conjugué.

Comment la tractabilité des intégrales apparaît-elle dans un calcul bayésien pratique?

Imaginez que nous souhaitons faire une inférence sur un paramètre $\theta$ :

$p(\theta|\mathbf x) \propto p(\mathbf x|\theta)\cdot p(\theta)$

où le premier terme à droite est la probabilité et le second terme est le prieur. L'enjeu est essentiellement d'évaluer la constante de proportionnalité requise pour obtenir une densité à droite; et puis vous voudrez peut-être faire diverses choses avec lui (par exemple le dessiner; trouver des statistiques sommaires - sa moyenne, ou son mode, ou certains quantiles; peut-être même en échantillonner). Quoi qu'il en soit, être en mesure de trouver cette intégrale d'une manière ou d'une autre serait utile, et peut-être que la chose la plus naturelle et la plus évidente à faire est d'essayer de la trouver `` algébriquement '' - c'est-à-dire en utilisant le sac d'astuces habituel pour évaluer les intégrales.

Habituellement, ce que nous entendons vraiment par intraitable est `` intraitable analytiquement '', mais parfois il est utilisé un peu plus librement. Dans un certain sens, «la plupart» des intégrales sont insolubles, pour diverses valeurs de «insolubles» (faites défiler jusqu'à la discussion des intégrales).

Exemple

Comme Zen le fait remarquer, même pour cet exemple très simple de modèle binomial, il n'y a aucune garantie que vous puissiez faire l'intégration pour le postérieur sur le paramètre algébriquement.

Voici un exemple différent (une version simplifiée de quelque chose que j'ai vu venir):

Considérons un postérieur bayésien pour la variance, $\sigma^2$ d'une distribution normale avec une moyenne connue $\mu$ . Le conjugué a priori est un gamma inverse, mais que faire si nous voulions un a priori log-normal?

Ensuite, nous aurions effectivement une intégrale dont l'intégrande est de la forme

p (σ^{2} | μ, y) \propto p (y | μ, σ^{2}) \cdot p (σ^{2})

$p(\sigma^2|\mu,\mathbf y)\propto p(\mathbf y|\mu,\sigma^2)\cdot p(\sigma^2)$

où encore le premier terme à droite de la $\propto$ est la probabilité et le second est le prieur.

Cette probabilité est de la forme:

F (σ^{2}; α, β) = \frac{β^{α}}{Γ (α)} (σ^{2})^{- α - 1} \exp (- \frac{β}{σ^{2}})

$f(\sigma^2; \alpha, \beta)= \frac{\beta^\alpha}{\Gamma(\alpha)}(\sigma^2)^{-\alpha - 1}\exp\left(-\frac{\beta}{\sigma^2}\right)$

où $\alpha$ et $\beta$ sont de simples fonctions des données, $y$ , la taille de l'échantillon, $n$ , et $\mu$ et le prieur a la forme:

F (σ^{2}; θ, τ) = \frac{1}{σ^{2} τ \sqrt{2 π}} e^{- \frac{(\ln σ^{2} - θ)^{2}}{2 τ^{2}}}

$f(\sigma^2;\theta,\tau) = \frac{1}{\sigma^2 \tau \sqrt{2 \pi}}\, e^{-\frac{(\ln \sigma^2 - \theta)^2}{2\tau^2}}$

... et le produit de ceux-ci n'est pas du tout algébriquement "agréable" à essayer. Par exemple, Wolfram Alpha ne peut pas faire l'intégrale *, et il est plus susceptible de sortir quelque chose comme ça dans un délai raisonnable que moi.

* (en particulier, nous pouvons supprimer les constantes et combiner les termes, et mettre $x$ pour $\sigma^2$ fournir $x^{-\alpha - 2} \exp(-\frac{\beta}{x}-\frac{(\ln x - \theta)^2}{2\tau^2})$ pour l'intégrande - et l'intégrale indéfinie de cela est ce que Wolfram Alpha ne peut pas faire. Peut-être qu'il y a un moyen de l'obtenir - ou autre chose - pour faire l'intégrale définie sur $(0,\infty)$ , bien que.)

Discussion de quelques approches de l'intraitabilité analytique

S'il n'y avait pas le fait que les gens ont si souvent tendance à choisir des prieurs analytiquement `` agréables '' (en particulier lors de l'enseignement du sujet, mais aussi fréquemment dans de vrais problèmes), ce serait un problème qui revient presque à chaque fois. Cela ne veut pas dire que choisir des prieurs analytiquement agréables est mauvais - généralement, nous n'avons qu'une vague idée de nos informations antérieures (j'ai rarement une distribution antérieure spécifique à l'esprit, bien que je puisse avoir une idée des valeurs possibles ou probables - je peux avoir un sens large de l'endroit où je veux la plupart de la probabilité sur mon avant d'être, ou très approximativement où la moyenne pourrait être, par exemple - si je ne sais pas quelle forme fonctionnelle spécifique je veux pour mon a priori et un a priori conjugué peut refléter les informations que je veux avoir dans mon précédent, qui peut souvent être un choix tout à fait raisonnable).

Toutefois, d'un point de vue pratique, il est encore tout à fait possible de traiter cette question de plusieurs manières. Nous pouvons, par exemple, rapprocher le postérieur à divers degrés de précision. Voici quelques exemples (nullement exhaustifs): (i) en rapprochant cet a priori souhaité de plusieurs façons - peut-être par un mélange de prieurs conjugués ou autrement traitables - donnant un mélange correspondant pour le postérieur, ou (ii) en une intégration numérique appropriée (qui dans le cas univarié peut fonctionner étonnamment bien), ou (iii) nous pouvons simuler à partir de cette distribution sans savoir cette intégrale - peut-être via un échantillonnage de rejet , ou via une chaîne de Markov de type Metropolis-Hastings Markov Chain-Monte Carlo algorithme, tant que nous avons respectivement une fonction de délimitation appropriée ou un approximant).

Dans le passé, les approches courantes de ces problèmes incluaient généralement l'intégration numérique (ou l'intégration de Monte Carlo dans les dimensions supérieures) et l' approximation de Laplace . En fait, ils sont encore utilisés sur de nombreux problèmes, mais nous avons de nombreux autres outils.

Étant donné que beaucoup de travaux bayésiens sont effectués à l'aide de différentes versions de MCMC et d'approches d'échantillonnage connexes ces jours-ci, la tractabilité analytique est beaucoup moins problématique qu'elle ne l'aurait été, même avec des problèmes avec un grand nombre de paramètres - j'ai vu les trois les approches que j'ai mentionnées ci-dessus utilisées dans ce contexte; cela signifie que nous sommes à peu près libres de choisir uniquement l'a priori que nous voulons, sur la base de la façon dont il reflète nos connaissances antérieures, ou pour sa capacité à régulariser l'inférence - pour son adéquation à notre inférence plutôt que pour la facilité de la manipulation algébrique. Ainsi, vous voyez, par exemple, Andrew Gelman préconisant l'utilisation de priors mi-Cauchy et mi-t sur les paramètres de variance dans les modèles hiérarchiques, etCauchy a priori faiblement informatif dans la régression logistique (cependant, cet article n'utilise pas MCMC, mais réalise plutôt une inférence approximative via EM couplée aux moindres carrés itérativement repondérés pour la régression logistique).

— Glen_b -Reinstate Monica
source