Mise à jour : Avec le recul de quelques années, j'ai rédigé un traitement plus concis essentiellement du même matériau en réponse à une question similaire.
Comment construire une région de confiance
Commençons par une méthode générale de construction des régions de confiance. Il peut être appliqué à un seul paramètre, pour produire un intervalle de confiance ou un ensemble d'intervalles; et il peut être appliqué à deux paramètres ou plus, pour produire des régions de confiance dimensionnelles plus élevées.
Nous affirmons que les statistiques observées D proviennent d'une distribution avec les paramètres θ , à savoir la distribution d'échantillonnage s(d|θ) sur les statistiques possibles d , et cherchons une région de confiance pour θ dans l'ensemble des valeurs possibles Θ . Définissez une région à plus haute densité (HDR): le h -HDR d'un PDF est le plus petit sous-ensemble de son domaine qui prend en charge la probabilité h . Notons le h -HDR de s(d|ψ) comme Hψ , pour tout ψ∈Θ . Ensuite, larégion de confianceh pourθ , étant donné les donnéesD , est l'ensembleCD={ϕ:D∈Hϕ} . Une valeur typique deh serait 0,95.
Une interprétation fréquentiste
De la définition précédente d'une région de confiance suit
d∈Hψ⟷ψ∈Cd
avec Cd={ϕ:d∈Hϕ} . Maintenant , imaginez un grand nombre de ( imaginaires observations) {Di} , pris dans des circonstances similaires à D . ie Ce sont des échantillons de s(d|θ) . Puisque Hθ supporte la masse de probabilité h des PDF s(d|θ) ,P(Di∈Hθ)=h pour touti . Par conséquent, la fraction de{Di} pour laquelleréje∈ Hθ esth . Et donc, en utilisant l'équivalence ci-dessus, la fraction de{ Dje} pour laquelleθ ∈ Créje est égalementh .
C'est donc ce que la revendication fréquentiste pour la région de confiance h pour θ équivaut à:
Prenez un grand nombre d'observations imaginaires { Dje} de la distribution d'échantillonnage s ( d| θ) qui a donné lieu à des statistiques observées ré . Alors, θ se situe dans une fraction h des régions de confiance analogues mais imaginaires { Créje} .
La région de confiance Cré ne prétend donc pas à la probabilité que θ se situe quelque part! La raison en est simplement qu'il n'y a rien dans la fomulation qui nous permette de parler d'une distribution de probabilité sur θ . L'interprétation est juste une superstructure élaborée, qui n'améliore pas la base. La base n'est que s ( d| θ) et ré , où θ n'apparaît pas comme une quantité distribuée, et il n'y a aucune information que nous pouvons utiliser pour y remédier. Il existe essentiellement deux façons d'obtenir une distribution sur θ :
- Attribuez une distribution directement à partir des informations disponibles: p ( θ | I) .
- Reliez θ à une autre quantité distribuée: p ( θ | I) = ∫p ( θ x | I) dx = ∫p ( θ | x I)p(x|I)dx .
Dans les deux cas, θ doit apparaître quelque part à gauche. Les fréquencistes ne peuvent utiliser aucune des deux méthodes, car elles nécessitent toutes deux un préalable hérétique.
Une vue bayésienne
Tout ce qu'un bayésien peut faire de la région de confiance hCD , donnée sans qualification, est simplement l'interprétation directe: que c'est l'ensemble de ϕ pour lequel D tombe dans le h -HDR Hϕ de la distribution d'échantillonnage s(d|ϕ) . Cela ne nous dit pas nécessairement grand-chose sur θ , et voici pourquoi.
La probabilité que θ∈CD , étant donné D et les informations de base I , soit:
P( θ ∈ Cré| DI)= ∫Crép ( θ | D I) dθ= ∫Crép ( D | θ I) p ( θ | I)p(D|I)dθ
Notez que, contrairement à l'interprétation fréquentiste, nous avons immédiatement demandé une distribution surθ. L'information de baseInous dit, comme précédemment, que la distribution d'échantillonnage ests(d|θ):
P(θ∈CD|DI)i.e.P(θ∈CD|DI)=∫CDs(D|θ)p(θ|I)p(D|I)dθ=∫CDs(D|θ)p(θ|I)dθp(D|I)=∫CDs(D|θ)p(θ|I)dθ∫s(D|θ)p(θ|I)dθ
Or, cette expression n'évalue généralement pas enh, c'est-à-dire que larégion de confiancehCDne contient pas toujoursθde probabilitéh. En fait, il peut être très différent deh. Il existe cependant de nombreuses situations courantes dans lesquelles ilestévalué àh, c'est pourquoi les régions de confiance sont souvent cohérentes avec nos intuitions probabilistes.
Par exemple, supposons que le joint PDF antérieur de d et θ soit symétrique en ce que pd,θ(d,θ|I)=pd,θ(θ,d|I) . (Cela implique clairement une hypothèse selon laquelle le PDF s'étend sur le même domaine en d et θ .) Ensuite, si l'a priori est p(θ|I)=f(θ) , nous avons s(D|θ)p(θ|I)=s(D|θ)f(θ)=s(θ|D)f(D) . D'où
P(θ∈CD|DI)i.e.P(θ∈CD|DI)=∫CDs(θ|D)dθ∫s(θ|D)dθ=∫CDs(θ|D)dθ
D'après la définition d'un HDR, nous savons que pour toutψ∈Θ
∫Hψs(d|ψ)ddand therefore that∫HDs(d|D)ddor equivalently∫HDs(θ|D)dθ=h=h=h
Therefore, given that s(d|θ)f(θ)=s(θ|d)f(d), CD=HD implies P(θ∈CD|DI)=h. The antecedent satisfies
CD=HD⟷∀ψ[ψ∈CD↔ψ∈HD]
Applying the equivalence near the top:
CD=HD⟷∀ψ[D∈Hψ↔ψ∈HD]
Thus, the confidence region CD contains θ with probability h if for all possible values ψ of θ, the h-HDR of s(d|ψ) contains D if and only if the h-HDR of s(d|D) contains ψ.
Now the symmetric relation D∈Hψ↔ψ∈HD is satisfied for all ψ when s(ψ+δ|ψ)=s(D−δ|D) for all δ that span the support of s(d|D) and s(d|ψ). We can therefore form the following argument:
- s(d|θ)f(θ)=s(θ|d)f(d) (premise)
- ∀ψ∀δ[s(ψ+δ|ψ)=s(D−δ|D)] (premise)
- ∀ψ∀δ[s(ψ+δ|ψ)=s(D−δ|D)]⟶∀ψ[D∈Hψ↔ψ∈HD]
- ∴∀ψ[D∈Hψ↔ψ∈HD]
- ∀ψ[D∈Hψ↔ψ∈HD]⟶CD=HD
- ∴CD=HD
- [s(d|θ)f(θ)=s(θ|d)f(d)∧CD=HD]⟶P(θ∈CD|DI)=h
- ∴P(θ∈CD|DI)=h
Let's apply the argument to a confidence interval on the mean of a 1-D normal distribution (μ,σ), given a sample mean x¯ from n measurements. We have θ=μ and d=x¯, so that the sampling distribution is
s(d|θ)=n−−√σ2π−−√e−n2σ2(d−θ)2
Suppose also that we know nothing about θ before taking the data (except that it's a location parameter) and therefore assign a uniform prior: f(θ)=k. Clearly we now have s(d|θ)f(θ)=s(θ|d)f(d), so the first premise is satisfied. Let s(d|θ)=g((d−θ)2). (i.e. It can be written in that form.) Then
s(ψ+δ|ψ)=g((ψ+δ−ψ)2)=g(δ2)ands(D−δ|D)=g((D−δ−D)2)=g(δ2)so that∀ψ∀δ[s(ψ+δ|ψ)=s(D−δ|D)]
whereupon the second premise is satisfied. Both premises being true, the eight-point argument leads us to conclude that the probability that θ lies in the confidence interval CD is h!
We therefore have an amusing irony:
- The frequentist who assigns the h confidence interval cannot say that P(θ∈CD)=h, no matter how innocently uniform θ looks before incorporating the data.
- The Bayesian who would not assign an h confidence interval in that way knows anyhow that P(θ∈CD|DI)=h.
Final Remarks
We have identified conditions (i.e. the two premises) under which the h confidence region does indeed yield probability h that θ∈CD. A frequentist will baulk at the first premise, because it involves a prior on θ, and this sort of deal-breaker is inescapable on the route to a probability. But for a Bayesian, it is acceptable---nay, essential. These conditions are sufficient but not necessary, so there are many other circumstances under which the Bayesian P(θ∈CD|DI) equals h. Equally though, there are many circumstances in which P(θ∈CD|DI)≠h, especially when the prior information is significant.
We have applied a Bayesian analysis just as a consistent Bayesian would, given the information at hand, including statistics D. But a Bayesian, if he possibly can, will apply his methods to the raw measurements instead---to the {xi}, rather than x¯. Oftentimes, collapsing the raw data into summary statistics D destroys information in the data; and then the summary statistics are incapable of speaking as eloquently as the original data about the parameters θ.