Probabilité vs distribution conditionnelle pour l'analyse bayésienne

Nous pouvons écrire le théorème de Bayes comme

p (θ | x) = \frac{f (X | θ) p (θ)}{\int_{θ} f (X | θ) p (θ) d θ}

$p(\theta|x) = \frac{f(X|\theta)p(\theta)}{\int_{\theta} f(X|\theta)p(\theta)d\theta}$

où est la postérieure, est la distribution conditionnelle et est la précédente. $p(\theta|x)$ $f(X|\theta)$ $p(\theta)$

p (θ | x) = \frac{L (θ | x) p (θ)}{\int_{θ} L (θ | x) p (θ) d θ}

$p(\theta|x) = \frac{L(\theta|x)p(\theta)}{\int_{\theta} L(\theta|x)p(\theta)d\theta}$

où $p(\theta|x)$ est la fonction postérieure, $L(\theta|x)$ est la fonction de vraisemblance et $p(\theta)$ est l'a priori.

Ma question est

Pourquoi l'analyse bayésienne est-elle effectuée en utilisant la fonction de vraisemblance et non la distribution conditionnelle?
Pouvez-vous dire en mots quelle est la différence entre la probabilité et la distribution conditionnelle? Je sais que la probabilité n'est pas une distribution de probabilité et $L(\theta|x) \propto f(X|\theta)$ .

bayesian likelihood

— kzoo
source

Il n'y a pas de différence! La probabilité est que la distribution conditionnelle , eh bien, est proportionnelle à, ce qui est tout ce qui compte.

f (X | θ)

$f(X | \theta)$

— kjetil b halvorsen

Le paramètre a la densité . si la réalisation de a une valeur alors que est la valeur observée d'une variable aléatoire , alors la valeur de la fonction de vraisemblance est précisément , la valeur de la densité conditionnelle de . La différence est que pour toutes les réalisations de . Cependant, en fonction de

Θ

$\Theta$

p_{Θ} (θ)

$p_\Theta(\theta)$

Θ

$\Theta$

θ

$\theta$

x

$x$

X

$X$

L (θ ∣ x)

$L(\theta\mid x)$

f (x ∣ θ)

$f(x\mid \theta)$

f_{X ∣ Θ} (x ∣ Θ = θ)

$f_{X\mid\Theta}(x\mid\Theta=\theta)$

X

$X$

\int_{- \infty}^{\infty} f_{X ∣ Θ} (x ∣ Θ = θ) d x = 1

$\int_{-\infty}^{\infty}f_{X\mid\Theta}(x\mid\Theta=\theta)dx=1$

Θ

$\Theta$

θ

$\theta$ (et fixe ), n'est pas une densité:

x

$x$

L (θ ∣ x)

$L(\theta\mid x)$

\int L (θ ∣ x) d θ \neq 1

$\int L(\theta\mid x)d\theta\neq 1$

— Dilip Sarwate

Réponses:

Supposons que vous ayez variables aléatoires (dont les valeurs seront observées dans votre expérience) qui sont conditionnellement indépendantes, étant donné que , avec des densités conditionnelles , pour . Ceci est votre modèle statistique (conditionnel) (postulé), et les densités conditionnelles expriment, pour chaque valeur possible du paramètre (aléatoire) , votre incertitude sur les valeurs des , avant d'avoir accès à tout des données réelles. À l'aide des densités conditionnelles, vous pouvez, par exemple, calculer des probabilités conditionnelles comme $X_1,\dots,X_n$ $\Theta=\theta$ $f_{X_i\mid\Theta}(\,\cdot\mid\theta)$ $i=1,\dots,n$ $\theta$ $\Theta$ $X_i$

P {X_{1} \in B_{1}, \dots, X_{n} \in B_{n} ∣ Θ = θ} = \int_{B_{1} \times \dots \times B_{n}} \prod_{i = 1}^{n} f_{X_{i} ∣ Θ} (x_{i} ∣ θ) d x_{1} \dots d x_{n},

$P\{X_1\in B_1,\dots,X_n\in B_n\mid \Theta=\theta\} = \int_{B_1\times\dots\times B_n} \prod_{i=1}^n f_{X_i\mid\Theta}(x_i\mid\theta)\,dx_1\dots dx_n \, ,$ pour chaque .

θ

$\theta$

Une fois que vous avez accès à un échantillon réel de valeurs (réalisations) des qui ont été observées en une seule fois de votre expérience, la situation change: il n'y a plus d'incertitude sur les observables . Supposons que le aléatoire assume des valeurs dans un espace de paramètres . Maintenant, vous définissez, pour ces valeurs connues (fixes) une fonction par Notez que , connue sous le nom de "fonction de vraisemblance" est une fonction de $(x_1,\dots,x_n)$ $X_i$ $X_1,\dots,X_n$ $\Theta$ $\Pi$ $(x_1,\dots,x_n)$

L_{x_{1}, \dots, x_{n}} : Π \to R

$L_{x_1,\dots,x_n} : \Pi \to \mathbb{R} \,$

L_{x_{1}, \dots, x_{n}} (θ) = \prod_{i = 1}^{n} f_{X_{i} ∣ Θ} (x_{i} ∣ θ) .

$L_{x_1,\dots,x_n}(\theta)=\prod_{i=1}^n f_{X_i\mid\Theta}(x_i\mid\theta) \, .$

L_{x_{1}, \dots, x_{n}}

$L_{x_1,\dots,x_n}$

θ

$\theta$ . Dans cette situation "après avoir des données", la probabilité contient, pour le modèle conditionnel particulier que nous considérons, toutes les informations sur le paramètre contenu dans cet exemple particulier . En fait, il arrive que soit une statistique suffisante pour .

L_{x_{1}, \dots, x_{n}}

$L_{x_1,\dots,x_n}$

Θ

$\Theta$

(x_{1}, \dots, x_{n})

$(x_1,\dots,x_n)$

L_{x_{1}, \dots, x_{n}}

$L_{x_1,\dots,x_n}$

Θ

$\Theta$

Pour répondre à votre question, pour comprendre les différences entre les concepts de densité conditionnelle et de vraisemblance, gardez à l'esprit leurs définitions mathématiques (qui sont clairement différentes: ce sont des objets mathématiques différents, avec des propriétés différentes), et rappelez-vous également que la densité conditionnelle est un "pré -échantillon "objet / concept, tandis que la probabilité est un" après-échantillon ". J'espère que tout cela vous aidera également à répondre à la raison pour laquelle l'inférence bayésienne (en utilisant votre façon de le dire, qui ne me semble pas idéale) se fait "en utilisant la fonction de vraisemblance et non la distribution conditionnelle": l'objectif de l'inférence bayésienne est pour calculer la distribution postérieure, et pour cela nous conditionnons sur les données observées (connues).

— Zen
source

Je pense que Zen a raison quand il dit que la probabilité et la probabilité conditionnelle sont différentes. Dans la fonction de vraisemblance, θ n'est pas une variable aléatoire, elle est donc différente de la probabilité conditionnelle.

— Martine

La proportionnalité est utilisée pour simplifier l'analyse

L'analyse bayésienne se fait généralement via un énoncé encore plus simple du théorème de Bayes, où nous ne travaillons qu'en termes de proportionnalité par rapport au paramètre d'intérêt. Pour un modèle IID standard avec une densité d'échantillonnage nous pouvons exprimer ceci comme: $f(X|\theta)$

p (θ | x) \propto L_{x} (θ) \cdot p (θ) L_{x} (θ) \propto \prod_{i = 1}^{n} f (x_{i} | θ) .

$p(\theta|\mathbf{x}) \propto L_\mathbf{x}(\theta) \cdot p(\theta) \quad \quad \quad \quad L_\mathbf{x}(\theta) \propto \prod_{i=1}^n f(x_i|\theta).$

Cette déclaration de mise à jour bayésienne fonctionne en termes de proportionnalité par rapport au paramètre . Il utilise deux simplifications de proportionnalité: une dans l'utilisation de la fonction de vraisemblance (proportionnelle à la densité d'échantillonnage) et une dans la partie postérieure (proportionnelle au produit de vraisemblance et a priori). Puisque le postérieur est une fonction de densité (dans le cas continu), la règle de normalisation définit alors la constante multiplicative qui est nécessaire pour produire une densité valide (c'est-à-dire pour la faire s'intégrer à une). $\theta$

Cette méthode d'utilisation de la proportionnalité a l'avantage de nous permettre d'ignorer tous les éléments multiplicatifs des fonctions qui ne dépendent pas du paramètre . Cela tend à simplifier le problème en nous permettant de balayer les parties inutiles des mathématiques et d'obtenir des déclarations plus simples du mécanisme de mise à jour. Ce n'est pas une exigence mathématique (puisque la règle de Bayes fonctionne aussi sous sa forme non proportionnelle), mais cela rend les choses plus simples pour nos petits cerveaux d'animaux. $\theta$

Un exemple appliqué: considérons un modèle IID avec les données observées . Pour faciliter notre analyse, nous définissons les statistiques et , qui sont les deux premiers moments de l'échantillon. Pour ce modèle, nous avons une densité d'échantillonnage: $X_1, ..., X_n \sim \text{IID N}(\theta, 1)$ $\bar{x} = \tfrac{1}{n} \sum_{i=1}^n x_i$ $\bar{\bar{x}} = \tfrac{1}{n} \sum_{i=1}^n x_i^2$

\begin{aligned} f (x | θ) = \prod_{i = 1}^{n} f (x_{i} | θ) & = \prod_{i = 1}^{n} N (x_{i} | θ, 1) \\ = \prod_{i = 1}^{n} \frac{1}{\sqrt{2 π}} \exp (- \frac{1}{2} (x_{i} - θ)^{2}) \\ = (2 π)^{n / 2} \exp (- \frac{1}{2} \sum_{i = 1}^{n} (x_{i} - θ)^{2}) . \\ = (2 π)^{n / 2} \exp (- \frac{n}{2} (θ^{2} - 2 \bar{x} θ + \bar{\bar{x}})) \\ = (2 π)^{n / 2} \exp (- \frac{n \bar{\bar{x}}}{2}) \cdot \exp (- \frac{n}{2} (θ^{2} - 2 \bar{x} θ)) \end{aligned}

$\begin{equation} \begin{aligned} f(\mathbf{x}|\theta) = \prod_{i=1}^n f(x_i|\theta) &= \prod_{i=1}^n \text{N}(x_i|\theta,1) \\[6pt] &= \prod_{i=1}^n \frac{1}{\sqrt{2 \pi}} \exp \Big( -\frac{1}{2} (x_i-\theta)^2 \Big) \\[6pt] &= (2 \pi)^{n/2} \exp \Big( -\frac{1}{2} \sum_{i=1}^n (x_i-\theta)^2 \Big). \\[6pt] &= (2 \pi)^{n/2} \exp \Big( -\frac{n}{2} ( \theta^2 - 2\bar{x} \theta + \bar{\bar{x}} ) \Big) \\[6pt] &= (2 \pi)^{n/2} \exp \Big( -\frac{n \bar{\bar{x}}}{2} \Big) \cdot \exp \Big( -\frac{n}{2} ( \theta^2 - 2\bar{x} \theta ) \Big) \\[6pt] \end{aligned} \end{equation}$

Maintenant, nous pouvons travailler directement avec cette densité d'échantillonnage si nous le voulons. Mais notez que les deux premiers termes de cette densité sont des constantes multiplicatives qui ne dépendent pas de . Il est ennuyeux de devoir garder une trace de ces termes, alors débarrassons-nous-en, nous avons donc la fonction de vraisemblance: $\theta$

L_{x} (θ) = \exp (- \frac{n}{2} (θ^{2} - 2 \bar{x} θ)) .

$L_\mathbf{x}(\theta) = \exp \Big( -\frac{n}{2} ( \theta^2 - 2\bar{x} \theta ) \Big).$

Cela simplifie un peu les choses, car nous n'avons pas à suivre un terme supplémentaire. Maintenant, nous pourrions appliquer la règle de Bayes en utilisant sa version d'équation complète, y compris le dénominateur intégral. Mais encore une fois, cela nous oblige à garder une trace d'une autre constante multiplicative ennuyeuse qui ne dépend pas de (plus ennuyeux car nous devons résoudre une intégrale pour l'obtenir). Appliquons donc simplement la règle de Bayes sous sa forme proportionnelle. En utilisant le conjugué précédent , avec un paramètre de précision connu , nous obtenons le résultat suivant (en complétant le carré ): $\theta$ $\theta \sim \text{N}(0,\lambda_0)$ $\lambda_0>0$

\begin{aligned} p (θ | x) & \propto L_{x} (θ) \cdot p (θ) \\ = \exp (- \frac{n}{2} (θ^{2} - 2 \bar{x} θ)) \cdot N (θ | 0, λ_{0}) \\ \propto \exp (- \frac{n}{2} (θ^{2} - 2 \bar{x} θ)) \cdot \exp (- \frac{λ_{0}}{2} θ^{2}) \\ = \exp (- \frac{1}{2} (n θ^{2} - 2 n \bar{x} θ + λ_{0} θ^{2})) \\ = \exp (- \frac{1}{2} ((n + λ_{0}) θ^{2} - 2 n \bar{x} θ)) \\ = \exp (- \frac{n + λ_{0}}{2} (θ^{2} - 2 \frac{n \bar{x}}{n + λ_{0}} θ)) \\ \propto \exp (- \frac{n + λ_{0}}{2} (θ - \frac{n}{n + λ_{0}} \cdot \bar{x})^{2}) \\ \propto N (θ | \frac{n}{n + λ_{0}} \cdot \bar{x}, n + λ_{0}) . \end{aligned}

$\begin{equation} \begin{aligned} p(\theta|\mathbf{x}) &\propto L_\mathbf{x}(\theta) \cdot p(\theta) \\[10pt] &= \exp \Big( -\frac{n}{2} ( \theta^2 - 2\bar{x} \theta ) \Big) \cdot \text{N}(\theta|0,\lambda_0) \\[6pt] &\propto \exp \Big( -\frac{n}{2} ( \theta^2 - 2\bar{x} \theta ) \Big) \cdot \exp \Big( -\frac{\lambda_0}{2} \theta^2 \Big) \\[6pt] &= \exp \Big( -\frac{1}{2} ( n\theta^2 - 2n\bar{x} \theta + \lambda_0 \theta^2 ) \Big) \\[6pt] &= \exp \Big( -\frac{1}{2} ( (n+\lambda_0) \theta^2 - 2n\bar{x} \theta ) \Big) \\[6pt] &= \exp \Big( -\frac{n+\lambda_0}{2} \Big( \theta^2 - 2 \frac{n\bar{x}}{n+\lambda_0} \theta \Big) \Big) \\[6pt] &\propto \exp \Big( -\frac{n+\lambda_0}{2} \Big( \theta - \frac{n}{n+\lambda_0} \cdot \bar{x} \Big)^2 \Big) \\[6pt] &\propto \text{N}\Big( \theta \Big| \frac{n}{n+\lambda_0} \cdot \bar{x}, n+\lambda_0 \Big). \\[6pt] \end{aligned} \end{equation}$

Ainsi, à partir de ce travail, nous pouvons voir que la distribution postérieure est proportionnelle à une densité normale. Puisque le postérieur doit être une densité, cela implique que le postérieur est cette densité normale:

p (θ | x) = N (θ | \frac{n}{n + λ_{0}} \cdot \bar{x}, n + λ_{0}) .

$p(\theta|\mathbf{x}) = \text{N}\Big( \theta \Big| \frac{n}{n+\lambda_0} \cdot \bar{x}, n+\lambda_0 \Big).$

On voit donc qu'a posteriori le paramètre est normalement distribué avec la moyenne et la variance postérieures données par: $\theta$

E (θ | x) = \frac{n}{n + λ_{0}} \cdot \bar{x} V (θ | x) = \frac{1}{n + λ_{0}} .

$\mathbb{E}(\theta|\mathbf{x}) = \frac{n}{n+\lambda_0} \cdot \bar{x} \quad \quad \quad \quad \mathbb{V}(\theta|\mathbf{x}) = \frac{1}{n+\lambda_0}.$

Maintenant, la distribution postérieure que nous avons dérivée a une constante d'intégration à l'avant de celle-ci (que nous pouvons trouver facilement en recherchant la forme de la distribution normale ). Mais notez que nous n'avons pas eu à nous soucier de cette constante multiplicative - tout notre travail a supprimé (ou introduit) des constantes multiplicatives chaque fois que cela simplifiait les mathématiques. Le même résultat peut être dérivé tout en gardant une trace des constantes multiplicatives, mais c'est beaucoup plus compliqué.

— Ben - Réintègre Monica
source

Je pense que la réponse de Zen vous dit vraiment comment la fonction de vraisemblance et la densité conjointe des valeurs des variables aléatoires diffèrent conceptuellement. Toujours mathématiquement en fonction à la fois des x s et de θ, ils sont identiques et en ce sens, la probabilité peut être considérée comme une densité de probabilité. La différence que vous signalez dans la formule de la distribution postérieure de Bayes n'est qu'une différence de notation. Mais la subtilité de la différence est bien expliquée dans la réponse de Zen. $_i$

Ce problème est apparu dans d'autres questions discutées sur ce site concernant la fonction de vraisemblance. D'autres commentaires de kjetil et Dilip semblent également appuyer ce que je dis.

— Michael R. Chernick
source