Régression de Bayes: comment cela se fait-il par rapport à la régression standard?

J'ai quelques questions sur la régression bayésienne:

une régression standard telle que . Si je veux changer cela en une régression bayésienne, ai-je besoin de distributions antérieures à la fois pour et (ou cela ne fonctionne-t-il pas de cette façon)? $y = \beta_0 + \beta_1 x + \varepsilon$ $\beta_0$ $\beta_1$
Dans la régression standard, on essaierait de minimiser les résidus pour obtenir des valeurs uniques pour et . Comment cela se fait-il dans la régression de Bayes? $\beta_0$ $\beta_1$

Je me bats vraiment beaucoup ici:

posterior = prior \times likelihood

$\text{posterior} = \text{prior} \times \text{likelihood}$

La probabilité provient de l'ensemble de données actuel (il s'agit donc de mon paramètre de régression, mais pas d'une valeur unique mais d'une distribution de probabilité, n'est-ce pas?). Prior provient d'une recherche précédente (disons). Alors j'ai eu cette équation:

y = β_{1} x + ε

$y = \beta_1 x + \varepsilon$

avec étant ma probabilité ou postérieure (ou est-ce tout simplement faux)? $\beta_1$

Je ne comprends tout simplement pas comment la régression standard se transforme en une régression de Bayes.

regression bayesian

— TinglTanglBob
source

Réponses:

Modèle de régression linéaire simple

y_{i} = α + β x_{i} + ε

$y_i = \alpha + \beta x_i + \varepsilon$

peut être écrit en termes de modèle probabiliste derrière elle

μ_{i} = α + β x_{i} y_{i} \sim N (μ_{i}, σ)

$\mu_i = \alpha + \beta x_i \\ y_i \sim \mathcal{N}(\mu_i, \sigma)$

c'est-à-dire que la variable dépendante suit la distribution normale paramétrée par la moyenne , c'est-à-dire une fonction linéaire de paramétrisée par et par l'écart type . Si vous estimez ce modèle à l'aide des moindres carrés ordinaires , vous n'avez pas à vous préoccuper de la formulation probabiliste, car vous recherchez des valeurs optimales pour paramètres en minimisant les erreurs au carré des valeurs ajustées aux valeurs prédites. D'autre part, vous pouvez estimer ce modèle à l'aide de l' estimation du maximum de vraisemblance , où vous recherchez des valeurs optimales de paramètres en maximisant la fonction de vraisemblance. $Y$ $\mu_i$ $X$ $\alpha,\beta$ $\sigma$ $\alpha,\beta$

\underset{α, β, σ}{a r g m a x} \prod_{i = 1}^{n} N (y_{i}; α + β x_{i}, σ)

$\DeclareMathOperator*{\argmax}{arg\,max} \argmax_{\alpha,\,\beta,\,\sigma} \prod_{i=1}^n \mathcal{N}(y_i; \alpha + \beta x_i, \sigma)$

où est une fonction de densité de la distribution normale évaluée aux points , paramétrée par le moyen et l'écart type . $\mathcal{N}$ $y_i$ $\alpha + \beta x_i$ $\sigma$

Dans l'approche bayésienne au lieu de maximiser la fonction de vraisemblance uniquement, nous supposerions des distributions antérieures pour les paramètres et utiliserons le théorème de Bayes

posterior \propto likelihood \times prior

$\text{posterior} \propto \text{likelihood} \times \text{prior}$

La fonction de vraisemblance est la même que ci-dessus, mais ce qui change est que vous supposez certaines distributions antérieures pour les paramètres estimés et que vous les incluez dans l'équation. $\alpha,\beta,\sigma$

\underset{posterior}{\underset{⏟}{f (α, β, σ ∣ Y, X)}} \propto \underset{likelihood}{\underset{⏟}{\prod_{i = 1}^{n} N (y_{i} ∣ α + β x_{i}, σ)}} \underset{priors}{\underset{⏟}{f_{α} (α) f_{β} (β) f_{σ} (σ)}}

$\underbrace{f(\alpha,\beta,\sigma\mid Y,X)}_{\text{posterior}} \propto \underbrace{\prod_{i=1}^n \mathcal{N}(y_i\mid \alpha + \beta x_i, \sigma)}_{\text{likelihood}} \; \underbrace{f_{\alpha}(\alpha) \, f_{\beta}(\beta) \, f_{\sigma}(\sigma)}_{\text{priors}}$

"Quelles distributions?" est une question différente, car il y a un nombre illimité de choix. Pour paramètres , vous pouvez par exemple supposer des distributions normales paramétrées par certains hyperparamètres , ou -distribution si vous voulez assumer des queues plus lourdes, ou une distribution uniforme si vous ne voulez pas faire beaucoup d’hypothèses, mais vous voulez supposer que les paramètres peuvent être a priori "tout ce qui est compris dans la plage donnée", etc. Pour vous devez supposer une distribution antérieure dont la borne est supérieure à zéro, car l'écart type doit être positif. Cela peut conduire à la formulation du modèle, illustrée ci-dessous par John K. Kruschke. $\alpha,\beta$ $t$ $\sigma$

(source: http://www.indiana.edu/~kruschke/BMLR/ )

Alors que vous cherchiez au maximum de probabilité que vous recherchiez une seule valeur optimale pour chacun des paramètres, en appliquant l'approche Bayesienne en appliquant le théorème de Bayes, vous obtenez la distribution a posteriori des paramètres. L'estimation finale dépendra des informations provenant de vos données et de vos a priori , mais plus vous y trouverez d'informations, moins les a priori ont d'influence .

Notez que lorsque vous utilisez des a priori uniformes, ils prennent la forme après la suppression des constantes de normalisation. Cela rend le théorème de Bayes uniquement proportionnel à la fonction de vraisemblance, de sorte que la distribution postérieure atteindra son maximum exactement au même point que l'estimation du maximum de vraisemblance. Ce qui suit, l’estimation sous les a priori uniformes sera la même que pour les moindres carrés ordinaires, car minimiser les erreurs au carré correspond à la maximisation de la vraisemblance normale . $f(\theta) \propto 1$

Pour estimer un modèle en approche bayésienne, dans certains cas, vous pouvez utiliser des a priori conjugués . La distribution a posteriori est donc directement disponible (voir exemple ici ). Cependant, dans la grande majorité des cas, la distribution postérieure ne sera pas directement disponible et vous devrez utiliser les méthodes de Markov en chaîne de Monte Carlo pour estimer le modèle (consultez cet exemple d'utilisation de l'algorithme de Metropolis-Hastings pour estimer les paramètres de régression linéaire). Enfin, si vous n’êtes intéressé que par des estimations ponctuelles de paramètres, vous pouvez utiliser une estimation maximale a posteriori , à savoir:

\underset{α, β, σ}{a r g m a x} f (α, β, σ ∣ Y, X)

$\argmax_{\alpha,\,\beta,\,\sigma} f(\alpha,\beta,\sigma\mid Y,X)$

Pour une description plus détaillée de la régression logistique, vous pouvez vérifier le modèle logit bayésien - explication intuitive? fil.

Pour en savoir plus, vous pouvez consulter les livres suivants:

Kruschke, J. (2014). Analyse bayésienne de données: didacticiel avec R, JAGS et Stan. Presse académique.

Gelman, A., Carlin, JB, Stern, HS et Rubin, DB (2004). Analyse bayésienne des données. Chapman & Hall / CRC.

— Tim
source

+1 Étant donné la formulation de la question, je soulignerais peut-être un peu plus cette différence philosophique: Dans les moindres carrés ordinaires et l'estimation du maximum de vraisemblance, nous commençons par la question "Quelles sont les meilleures valeurs pour (peut-être pour plus tard utilisation)?" $\beta_i$ , alors que dans l’approche bayésienne complète, nous commençons par la question "Que pouvons-nous dire sur les valeurs inconnues ?" $\beta_i$ et ensuite peut-être passer à la moyenne a posteriori ou postérieure maximale si une estimation ponctuelle est nécessaire.

— JiK

+1 Une autre chose qu'il pourrait être utile de souligner pour clarifier la relation entre les approches bayésienne et MCO est que MLS peut être comprise comme une signification postérieure sous un plat avant (du moins autant que je comprends). Ce serait formidable si vous pouviez en dire un peu plus dans votre réponse.

— amibe dit de réintégrer Monica

@ amoeba c'est un bon point, je vais y réfléchir. Mais d'un autre côté, je ne veux pas donner la réponse ouvertement longue, il est donc utile d'aller aux détails.

— Tim

@ amoeba FYI, j'ai ajouté un bref commentaire à ce sujet.

— Tim

Étant donné un ensemble de données où , une régression linéaire bayésienne modélise le problème de la manière suivante: $D = (x_1,y_1), \ldots, (x_N,y_N)$ $x \in \mathbb{R}^d, y \in \mathbb{R}$

Prior:

w \sim N (0, σ_{w}^{2} I_{d})

$w \sim \mathcal{N}(0, \sigma_w^2 I_d)$

$w$ est vector , la distribution précédente est donc une distribution gaussienne multivariée; et est la matrice d'identité . $(w_1, \ldots, w_d)^T$ $I_d$ $d\times d$

Probabilité:

Y_{i} \sim N (w^{T} x_{i}, σ^{2})

$Y_i \sim \mathcal{N}(w^T x_i, \sigma^2)$

Nous supposons que $Y_i \perp Y_j | w, i \neq j$

Pour le moment, nous allons utiliser la précision au lieu de la variance, et . Nous supposerons également que sont connus. $a = 1/\sigma^2$ $b = 1/\sigma_w^2$ $a,b$

Le prior peut être énoncé sous la forme

p (w) \propto \exp {- \frac{b}{2} w^{t} w}

$p(w) \propto \exp \Big\{ -\frac{b}{2} w^t w \Big\}$

Et la probabilité

p (D | w) \propto \exp {- \frac{a}{2} (y - A w)^{T} (y - A w)}

$p(D|w) \propto \exp \Big\{ -\frac{a}{2} (y-Aw)^T (y-Aw) \Big\}$

où et est un la matrice où le i-ième rangée est . $y = (y_1,\ldots,y_N)^T$ $A$ $n\times d$ $x_i^T$

Alors le postérieur est

p (w | D) \propto p (D | w) p (w)

$p(w|D) \propto p(D|w) p(w)$

Après de nombreux calculs, nous découvrons que

p (w | D) \sim N (w | μ, Λ^{- 1})

$p(w|D) \sim \mathcal{N}(w | \mu, \Lambda^{-1})$

où ( est la matrice de précision) $\Lambda$

Λ = a A^{T} A + b I_{d}

$\Lambda = a A^T A + b I_d$

μ = a Λ^{- 1} A^{T} y

$\mu = a \Lambda^{-1} A^T y$

Notez que est égal au de la régression linéaire régulière, car, pour le gaussien, la moyenne est égale au mode. $\mu$ $w_{MAP}$

De plus, nous pouvons faire de l’algèbre sur et obtenir l’égalité suivante ( ): $\mu$ $\Lambda = aA^TA+bI_d$

μ = (A^{T} A + \frac{b}{a} I_{d})^{- 1} A^{T} y

$\mu = (A^T A + \frac{b}{a} I_d)^{-1} A^T y$

et comparez avec : $w_{MLE}$

w_{M L E} = (A^{T} A)^{- 1} A^{T} y

$w_{MLE} = (A^T A)^{-1} A^T y$

L'expression supplémentaire dans correspond à la précédente. Ceci est similaire à l'expression de la régression Ridge, pour le cas spécial où . La régression de crête est plus générale car la technique peut choisir des a priori inappropriés (dans la perspective bayésienne). $\mu$ $\lambda = \frac{b}{a}$

Pour la distribution prédictive postérieure:

p (y | x, D) = \int p (y | x, D, w) p (w | x, D) d w = \int p (y | x, w) p (w | D) d w

il est possible de calculer que

y | x, D \sim N (μ^{T} x, \frac{1}{a} + x^{T} Λ^{- 1} x)

$y|x,D \sim \mathcal{N}(\mu^Tx, \frac{1}{a} + x^T \Lambda^{-1}x)$

Référence: Lunn et al. Le livre de bogues

Pour utiliser un outil MCMC tel que JAGS / Stan, consultez l’analyse Doing Bayesian de Kruschke.

— jpneto
source

Merci jpneto. Je pense que c'est une excellente réponse, mais je ne le comprends pas encore à cause d'un manque de connaissances en mathématiques. Mais je vais certainement le relire après avoir acquis quelques compétences en mathématiques

— TinglTanglBob

C'est très bien, mais l'hypothèse que la précision est connue est un peu rare. N'est-il pas beaucoup plus courant de supposer une distribution gamma inverse pour la variance, c'est-à-dire une distribution gamma pour la précision?

— DeltaIV

+1 Pouvez-vous en dire un peu plus sur "La régression Ridge est plus générale car la technique permet de choisir des a priori inappropriés"? Je ne comprends pas. Je pensais que RR = Gaussian (bon) avant .

w

$w$

— amibe dit de réintégrer Monica

@amoeba: Le prior gaussien est mais peut être égal à zéro, ce qui résulte sur un antécédent incorrect, c’est-à-dire qu’il en résulte le MLE.

w \sim N (0, λ^{- 1} I_{d})

$w \sim N(0,\lambda^{-1} I_d)$

λ

$\lambda$

— jpneto

@ Delta IV: bien sûr, quand nous avons des incertitudes sur un paramètre, nous pouvons modéliser cela avec un préalable. L’hypothèse de précision connue est de faciliter la recherche d’une solution analytique. Habituellement, ces solutions analytiques ne sont pas possibles et nous devons utiliser des approximations, comme MCMC ou une technique variationnelle.

— jpneto