Voici un exemple d'estimation d'une moyenne, , à partir de données continues normales. Avant de plonger directement dans un exemple, je voudrais passer en revue certaines des mathématiques pour les modèles de données bayésiens normaux-normaux.θ
Considérons un échantillon aléatoire de n valeurs continues désignés par . Ici , le vecteur y = ( y 1 , . . . , Y ny1, . . . , yny= ( y1, . . . , yn)T
y1, . . . , yn| θ∼N( θ , σ2)
Ou comme plus typiquement écrit par Bayesian,
y1, . . . , yn| θ∼N( θ , τ)
τ= 1 / σ2τ
yje
F( yje| θ,τ) = (√τ2 π) × e x p ( - τ( yje- θ )2/ 2 )
θ^= y¯
θ
θ ∼ N( a , 1 / b )
La distribution postérieure que nous obtenons de ce modèle de données Normal-Normal (après beaucoup d'algèbre) est une autre distribution Normale.
θ | y∼ N( bb + n τa + n τb + n τy¯, 1b + n τ)
b + n τuney¯bb + n τa + n τb + n τy¯
θ | yθθ
Cela dit, vous pouvez maintenant utiliser n'importe quel exemple de manuel de données normales pour illustrer cela. Je vais utiliser l'ensemble de données airquality
dans R. Considérez le problème de l'estimation des vitesses moyennes du vent (MPH).
> ## New York Air Quality Measurements
>
> help("airquality")
>
> ## Estimating average wind speeds
>
> wind = airquality$Wind
> hist(wind, col = "gray", border = "white", xlab = "Wind Speed (MPH)")
>
> n = length(wind)
> ybar = mean(wind)
> ybar
[1] 9.957516 ## "frequentist" estimate
> tau = 1/sd(wind)
>
>
> ## but based on some research, you felt avgerage wind speeds were closer to 12 mph
> ## but probably no greater than 15,
> ## then a potential prior would be N(12, 2)
>
> a = 12
> b = 2
>
> ## Your posterior would be N((1/))
>
> postmean = 1/(1 + n*tau) * a + n*tau/(1 + n*tau) * ybar
> postsd = 1/(1 + n*tau)
>
> set.seed(123)
> posterior_sample = rnorm(n = 10000, mean = postmean, sd = postsd)
> hist(posterior_sample, col = "gray", border = "white", xlab = "Wind Speed (MPH)")
> abline(v = median(posterior_sample))
> abline(v = ybar, lty = 3)
>
> median(posterior_sample)
[1] 10.00324
> quantile(x = posterior_sample, probs = c(0.025, 0.975)) ## confidence intervals
2.5% 97.5%
9.958984 10.047404
Dans cette analyse, le chercheur (vous) peut dire que, compte tenu des données + informations préalables, votre estimation du vent moyen, en utilisant le 50e centile, les vitesses devrait être de 10,00324, supérieure à la simple utilisation de la moyenne des données. Vous obtenez également une distribution complète, à partir de laquelle vous pouvez extraire un intervalle crédible à 95% en utilisant les quantiles 2,5 et 97,5.
Ci-dessous, j'inclus deux références, je recommande fortement de lire le court article de Casella. Il est spécifiquement destiné aux méthodes empiriques de Bayes, mais explique la méthodologie bayésienne générale pour les modèles normaux.
Références:
Casella, G. (1985). Une introduction à l'analyse empirique des données de Bayes. The American Statistician, 39 (2), 83-87.
Gelman, A. (2004). Analyse des données bayésiennes (2e éd., Textes en science statistique). Boca Raton, Floride: Chapman & Hall / CRC.