31

Je suis très nouveau dans les statistiques bayésiennes, et cela peut être une question stupide. Cependant:

Considérons un intervalle crédible avec un a priori qui spécifie une distribution uniforme. Par exemple, de 0 à 1, où 0 à 1 représente la plage complète des valeurs possibles d'un effet. Dans ce cas, un intervalle crédible de 95% serait-il égal à un intervalle de confiance de 95%?

— pomodoro
source

23

De nombreux intervalles de confiance fréquentistes (IC) sont basés sur la fonction de vraisemblance. Si la distribution a priori est vraiment non informative, alors le postérieur bayésien a essentiellement les mêmes informations que la fonction de vraisemblance. Par conséquent, dans la pratique, un intervalle de probabilité bayésien (ou intervalle crédible) peut être très similaire numériquement à un intervalle de confiance fréquentiste. [Bien sûr, même s'ils sont numériquement similaires, il existe des différences philosophiques d' interprétation entre les estimations de l'intervalle fréquentiste et bayésien.]

Voici un exemple simple, estimant la probabilité de réussite binomiale $\theta.$ Supposons que nous ayons $n = 100$ observations (essais) avec $X = 73$ succès.

Frequentist: Les traditionnels intervalle Wald utilise l'estimation ponctuelle Et l'IC à 95% est de la forme $\hat \theta = X/n = 73/100 = 0.73.$

\hat{θ} \pm 1.96 \sqrt{\frac{\hat{θ} (1 - \hat{θ})}{n}},

$\hat \theta \pm 1.96\sqrt{\frac{\hat \theta(1-\hat \theta)} {n}},$ qui calcule à

(0.643, 0.817) .

$(0.643,\,0.817).$

n = 100;  x = 73;  th.w = x/n;  pm = c(-1,1)
ci.w = th.w + pm*1.96*sqrt(th.w*(1-th.w)/n);  ci.w
[1] 0.6429839 0.8170161

Cette forme de CI suppose que les distributions binomiales pertinentes peuvent être approximées par des distributions normales et que la marge d'erreur est bien approximé par $\sqrt{\theta(1-\theta)/n}$ En particulier pour les petitsces hypothèses n'ont pas besoin d'être vraies. [Les cas oùousont particulièrement problématiques.] $\sqrt{\hat\theta(1-\hat\theta)/n}.$ $n,$ $X = 0$ $X = n$

Il a été démontré que le CI Agresti-Coull a une probabilité de couverture plus précise. Cet intervalle «ajoute deux succès et deux échecs» comme astuce pour obtenir une probabilité de couverture plus proche de 95%. Il commence par l'estimation ponctuelle où Alors un IC à 95% est de la forme $\tilde \theta = (X+2)/\tilde n,$ $\tilde n + 4.$ qui calcule àPouretla différence entre ces deux styles d'intervalles de confiance est presque négligeable.

\tilde{θ} \pm 1.96 \sqrt{\frac{\tilde{θ} (1 - \tilde{θ})}{\tilde{n}}},

$\tilde \theta \pm 1.96\sqrt{\frac{\tilde \theta(1-\tilde \theta)} {\tilde n}},$

(0.612, 0.792) .

$(0.612, 0.792).$

n > 100

$n > 100$

0.3 < \tilde{θ} < 0.7,

$0.3 < \tilde \theta < 0.7,$

ci.a = th.a + pm*1.96*sqrt(th.a*(1-th.a)/n);  ci.a
[1] 0.6122700 0.7915761

Bayésien: Un avant non informatif populaire dans cette situation est La fonction de vraisemblance est proportionnelle à En multipliant les noyaux de l'a priori et de la vraisemblance, nous avons le noyau de la distribution postérieure $\mathsf{Beta}(1,1) \equiv \mathsf{Unif}(0,1).$ $\theta^x(1-\theta)^{n-x}.$ $\mathsf{Beta}(x+1,\, n-x+1).$

Ensuite, une estimation de l'intervalle bayésien à 95% utilise les quantiles 0,025 et 0,975 de la distribution postérieure pour obtenir Lorsque la distribution antérieure est «plate» ou «non informative», la différence numérique entre l'intervalle de probabilité bayésien et l'intervalle de confiance Agresti-Coull est faible. $(0.635, 0.807).$

qbeta(c(.025, .975), 74, 28)
[1] 0.6353758 0.8072313

Notes: (a) Dans cette situation, certains bayésiens préfèrent l' a priori non (b) Pour des niveaux de confiance autres que 95%, l'IC Agresti-Coull utilise une estimation ponctuelle légèrement différente. (c) Pour les données autres que binomiales, il peut ne pas y avoir d'a priori «plat» disponible, mais on peut choisir un a priori avec une énorme variance (petite précision) qui contient très peu d'informations. (d) Pour une discussion plus approfondie des Agresti-Coull Kis, graphiques des probabilités de couverture, et quelques références, peut - être aussi voir ce Q & A . $\mathsf{Beta}(.5, .5).$

— BruceET
source

10

La réponse de BruceET est excellente mais assez longue, alors voici un bref résumé pratique:

si l'a priori est plat, la vraisemblance et la postérieure ont la même forme
les intervalles, cependant, ne sont pas nécessairement les mêmes, car ils sont construits de différentes manières. Un IC bayésien à 90% standard couvre les 90% centraux de la partie postérieure. Un IC fréquentiste est généralement défini par une comparaison point par point (voir la réponse de BruceET). Pour un paramètre de localisation illimité (par exemple, estimation de la moyenne d'une distribution normale), la différence est généralement faible, mais si vous estimez un paramètre borné (par exemple la moyenne binomiale) près des limites (0/1), les différences peuvent être substantielles.
bien sûr, l'interprétation est différente aussi, mais j'interprète la question principalement comme "quand les valeurs seront-elles les mêmes?"

— Florian Hartig
source

9

Bien que l'on puisse résoudre pour un a priori qui donne un intervalle crédible égal à l'intervalle de confiance fréquentiste, il est important de réaliser à quel point le champ d'application est étroit. Toute la discussion suppose que la taille de l'échantillon était fixe et n'est pas une variable aléatoire. Il suppose qu'il n'y a eu qu'un seul examen des données et qu'aucune inférence séquentielle n'a été effectuée. Il suppose qu'il n'y avait qu'une seule variable dépendante et qu'aucun autre paramètre n'était intéressant. Là où il y a des multiplicités, les intervalles bayésiens et fréquentistes divergent (les probabilités bayésiennes postérieures sont en mode prédictif avancé et n'ont pas besoin de considérer "comment nous sommes arrivés ici", donc n'ont aucun moyen ou besoin de s'adapter à plusieurs regards). En plus,

— Frank Harrell
source

Qu'est-ce que cela signifie d'être en "mode prédictif à temps avancé" et pourquoi n'avons-nous pas besoin de considérer les effets de sélection ou de multiplicité?

— badmax

1

Regardez ça . Pensez à prévoir le vainqueur d'un match de football au fur et à mesure que le jeu progresse. Votre probabilité actuelle que l'équipe x gagne la partie peut complètement ignorer les prévisions passées que vous avez faites. Mais si vous opérez en mode fréquentiste, vous devez envisager toutes les fois où votre équipe a perdu la partie et considérer les extrêmes des scores à tous les points du jeu que vous avez tendance à faire des prévisions. Les multiplicités viennent des chances que vous donnez des données extrêmes, et cela ne prend en compte que les calculs fréquentistes.

— Frank Harrell

6

Probabilité $\neq$ Bayésienne avec a priori plat

La fonction de vraisemblance et l'intervalle de confiance associé ne sont pas les mêmes (concept) qu'une probabilité postérieure bayésienne construite avec un a priori qui spécifie une distribution uniforme.

Dans les parties 1 et 2 de cette réponse, il est expliqué pourquoi la probabilité ne devrait pas être considérée comme une probabilité postérieure bayésienne basée sur un a priori plat.

Dans la partie 3, un exemple est donné où l'intervalle de confiance et l'intervalle crédible varient considérablement. Il est également souligné comment cet écart se produit.

1 Comportement différent lorsque la variable est transformée

Les probabilités se transforment d'une manière particulière . Si nous connaissons la distribution de distribution de probabilité $f_x(x)$ alors nous connaissons également la distribution de $f_\xi(\xi)$ pour la variable $\xi$ définie par n'importe quelle fonction $x=\chi(\xi)$ , selon la règle de transformation:

f_{ξ} (ξ) = f_{x} (χ (ξ)) \frac{d χ}{d ξ} d ξ

$f_\xi(\xi) = f_x(\chi(\xi)) \frac{d\chi}{d\xi} d\xi$

Si vous transformez une variable, la moyenne et le mode peuvent varier en raison de ce changement de la fonction de distribution. Cela signifie $\bar{x} \neq \chi(\bar{\xi})$ et $x_{\max f(x)} \neq \chi(\xi_{\max f(\xi)})$ .

La fonction de vraisemblance ne se transforme pas de cette façon . Il s'agit des contrastes entre la fonction de vraisemblance et la probabilité postérieure. La fonction (maximum de) de vraisemblance reste la même lorsque vous transformez la variable.

L_{ξ} (ξ) = L_{x} (χ (ξ))

$\mathcal{L}_\xi(\xi) = \mathcal{L}_x(\chi(\xi))$

En relation:

Le prieur plat est ambigu . Cela dépend de la forme de la statistique particulière.

Par exemple, si $X$ est distribué uniformément (par exemple $\mathcal{U}(0,1))$ , alors $X^2$ n'est pas une variable distribuée uniforme.

$X$ $X^2$
$a$ $f(a)$
$\begin{array}{ccccc} a_{min} & < & a & < & a_{max} \\ f (a_{min}) & < & f (a) & < & f (a_{max}) \end{array}$ $\begin{array}{ccccc} a_{\min} &<& a &<& a_{\max}\\ f(a_{\min}) &<& f(a) &<& f(a_{\max}) \end{array}$

2 Concept différent: les intervalles de confiance sont indépendants des précédents

Supposons que vous échantillonnez une variable $X$ $\theta$ $\theta$ $\theta$

$\theta$ $x_i$ $X$

$\theta$
Cela contraste avec la fonction de vraisemblance et l'intervalle de confiance, qui sont indépendants de la distribution précédente.

L'intervalle de confiance n'utilise pas les informations d'un a priori comme le fait l'intervalle crédible (la confiance n'est pas une probabilité).

$x%$

Dans le cas de l'intervalle crédible, ce concept ( $%$ $x%$

3 Différence entre la confiance et les intervalles crédibles

$\lambda$ $\bar{x}$ $n$

L (λ, \bar{x}, n) = \frac{n^{n}}{(n - 1)!} x^{n - 1} λ^{n} e^{- λ n \bar{x}}

$\mathcal{L}(\lambda,\bar{x},n) = \frac{n^n}{(n-1)!} x^{n-1} \lambda^n e^{-\lambda n \bar{x}}$

$n$ $\lambda$ $\bar{x}$ $\bar{x}+dx$

^{$\lambda$ $0$ $\infty$ $0$ $1$ $0$ $1$}

L'image ci-dessous illustre cette fonction de vraisemblance (la carte de couleur bleue), pour la taille de l'échantillon $n=4$

Les limites sont créées en obtenant la fonction de distribution cumulative (unidimensionnelle). Mais, cette intégration / cumul peut se faire dans deux directions .

La différence entre les intervalles se produit parce que les zones de 5% sont faites de différentes manières.

$\lambda$ $\bar{x}$ $\lambda$

$\lambda$ $\bar{x}$
$\lambda$ $\bar{x}$

$\bar{x}$ $\lambda$ $\lambda$ $\lambda$

$\bar{x}$ $\lambda$

Un cas où l'intervalle de confiance et l'intervalle crédible (basé sur un a priori incorrect) coïncident est pour estimer la moyenne d'une variable distribuée gaussienne (la distribution est illustrée ici: https://stats.stackexchange.com/a/351333/164061 ).

Un cas évident où l'intervalle de confiance et l'intervalle crédible ne coïncident pas est illustré ici ( https://stats.stackexchange.com/a/369909/164061 ). L'intervalle de confiance pour ce cas peut avoir une ou même les deux limites (supérieure / inférieure) à l'infini.

— Sextus Empiricus
source

2

Ne dites pas si l'intervalle crédible contient le vrai paramètre. L'intervalle crédible fait une déclaration de probabilité. Et le x% pour l'intervalle de confiance doit mentionner ce que signifie la réplication, c'est-à-dire ce que sont les «cas».

— Frank Harrell

B e t a (.5, .5)

$\mathsf{Beta}(.5, .5)$

Je ne crois pas avoir dit qu'avec un avant plat, la probabilité est la postérieure, même si cela peut être le cas. Conformément à l'écriture d'une réponse à ce que je supposais être le niveau d'expertise de l'OP, j'ai essayé d'écrire attentivement le premier paragraphe de ma réponse. Croyez-vous que ce que j'ai dit est en fait faux, ou dites-vous que cela pourrait être mal interprété?

— BruceET

1

Ce n'est généralement pas vrai, mais cela peut sembler le cas en raison des cas spéciaux les plus fréquemment considérés.

$X,Y\sim\operatorname{i.i.d}\sim\operatorname{Uniform}[\theta-1/2,\, \theta+1/2].$ $\big(\min\{X,Y\},\max\{X,Y\}\big)$ $50\%$ $\theta,$ $50\%$ intervalle crédible de entre la partie postérieure et la partie antérieure aplatie.

La technique de conditionnement de Fisher sur une statistique auxiliaire donne dans ce cas un intervalle de confiance qui coïncide avec cet intervalle crédible.

— Michael Hardy
source

0

D'après ma lecture, j'ai pensé que cette affirmation est vraie de manière asymptotique, c'est-à-dire pour un échantillon de grande taille, et si l'on utilise un préalable non informatif.

Un simple exemple numérique semblerait le confirmer - les intervalles de probabilité maximale de profil à 90% et les intervalles crédibles à 90% d'un GLM binomial ML et d'un GLM binomial bayésien sont en effet pratiquement identiques pour n=1000, bien que l'écart devienne plus grand pour les petits n:

# simulate some data
set.seed(123)
n = 1000                     # sample size
x1 = rnorm(n)                # two continuous covariates 
x2 = rnorm(n)
z = 0.1 + 2*x1 + 3*x2        # predicted values on logit scale
y = rbinom(n,1,plogis(z))    # bernoulli response variable
d = data.frame(y=y, x1=x1, x2=x2)

# fit a regular GLM and calculate 90% confidence intervals
glmfit = glm(y ~ x1 + x2, family = "binomial", data = d)
library(MASS)
# coefficients and 90% profile confidence intervals :
round(cbind(coef(glmfit), confint(glmfit, level=0.9)), 2) 
#                      5 % 95 %
#   (Intercept) 0.00 -0.18 0.17
# x1            2.04  1.77 2.34
# x2            3.42  3.05 3.81

# fit a Bayesian GLM using rstanarm
library(rstanarm)
t_prior = student_t(df = 3, location = 0, scale = 100) # we set scale to large value to specify an uninformative prior
bfit1 = stan_glm(y ~ x1 + x2, data = d, 
                 family = binomial(link = "logit"), 
                 prior = t_prior, prior_intercept = t_prior,  
                 chains = 1, cores = 4, seed = 123, iter = 10000)
# coefficients and 90% credible intervals :
round(cbind(coef(bfit1), posterior_interval(bfit1, prob = 0.9)), 2) 
#                        5%  95%
#   (Intercept) -0.01 -0.18 0.17
# x1             2.06  1.79 2.37
# x2             3.45  3.07 3.85


# fit a Bayesian GLM using brms
library(brms)
priors = c(
  prior(student_t(3, 0, 100), class = "Intercept"),
  prior(student_t(3, 0, 100), class = "b")
)
bfit2 = brm(
  y ~ x1 + x2,
  data = d,
  prior = priors,
  family = "bernoulli",
  seed = 123 
) 
# coefficients and 90% credible intervals :
summary(bfit2, prob=0.9)
# Population-Level Effects: 
#           Estimate Est.Error l-90% CI u-90% CI Eff.Sample Rhat
# Intercept    -0.01      0.11    -0.18     0.18       2595 1.00
# x1            2.06      0.17     1.79     2.35       2492 1.00
# x2            3.45      0.23     3.07     3.83       2594 1.00


# fit a Bayesian GLM using arm
library(arm)
# we set prior.scale to Inf to specify an uninformative prior
bfit3 = bayesglm(y ~ x1 + x2, family = "binomial", data = d, prior.scale = Inf) 
sims = coef(sim(bfit3, n.sims=1000000))
# coefficients and 90% credible intervals :
round(cbind(coef(bfit3), t(apply(sims, 2, function (col) quantile(col,c(.05, .95))))),2)
#                       5%  95%
#   (Intercept) 0.00 -0.18 0.17
# x1            2.04  1.76 2.33
# x2            3.42  3.03 3.80

Comme vous pouvez le voir, dans l'exemple ci-dessus, pour n=1000, les intervalles de confiance du profil à 90% d'un GLM binomial sont pratiquement identiques aux intervalles crédibles à 90% d'un GLM binomial bayésien (la différence est également dans les limites de l'utilisation de graines différentes et différentes nombre d'itérations dans les ajustements bayésiens, et une équivalence exacte ne peut pas non plus être obtenue car la spécification d'un a priori non informatif à 100% n'est également pas possible avec rstanarmou brms).

— Tom Wenseleers
source

Si un intervalle crédible a un avant plat, un intervalle de confiance à 95% est-il égal à un intervalle crédible à 95%?

Probabilité ≠≠\neq Bayésienne avec a priori plat

1 Comportement différent lorsque la variable est transformée

2 Concept différent: les intervalles de confiance sont indépendants des précédents

3 Différence entre la confiance et les intervalles crédibles

Probabilité $\neq$ Bayésienne avec a priori plat