Confus au sujet de l'intervalle de confiance

Je suis confus quant au concept d'intervalle de confiance. Plus précisément, supposons qu'il existe une variable gaussienne $X \sim N(\mu, \sigma)$ avec $\sigma$ connue, et je m'intéresse à la limite inférieure $\mu_L$ de la moyenne avec un niveau de confiance de $95\%$ .

Je vais faire l'expérience $5$ fois et observer $X_1$ , $X_2$ , $X_3$ , $X_4$ , $X_5$ .

Option 1: je traite chaque échantillon séparément et je peux calculer $\mu_L = X_i - \sigma z$ pour chaque $X_i$ . Et puis je crois qu'il ya une certaine façon (je ne sais pas comment) pour calculer la limite inférieure réelle de ces 5 $\mu_L$ « s.

Option 2: En revanche, si je prends $T = (X_1+X_2+X_3+X_4+X_5)/5$ , je peux calculer $\mu_L = T - \sigma/\sqrt{5}z$ . (en supposant que $T$ est normal, nous pouvons également utiliser t-stat.)

Existe-t-il une méthode autre que l'option 2 pour calculer une borne inférieure basée sur les $5$ échantillons? Et pour l'option 1, existe-t-il un moyen de calculer la borne inférieure sur la base des 5 bornes inférieures calculées?

confidence-interval

— calbear
source

C'est une grande question car elle explore la possibilité de procédures alternatives et nous demande de réfléchir à pourquoi et comment une procédure pourrait être supérieure à une autre.

La réponse courte est qu'il existe une infinité de façons de concevoir une procédure pour obtenir une limite de confiance inférieure pour la moyenne, mais certaines d'entre elles sont meilleures et d'autres sont pires (dans un sens qui est significatif et bien défini). L'option 2 est une excellente procédure, car une personne l'utilisant devrait collecter moins de la moitié autant de données qu'une personne utilisant l'option 1 afin d'obtenir des résultats de qualité comparable. La moitié des données signifie généralement la moitié du budget et la moitié du temps, nous parlons donc d'une différence substantielle et économiquement importante. Cela fournit une démonstration concrète de la valeur de la théorie statistique.

Plutôt que de refondre la théorie, dont de nombreux excellents comptes manuels existent, explorons rapidement trois procédures de limite de confiance inférieure (LCL) pour variables normales indépendantes de l'écart-type connu. J'en ai choisi trois naturels et prometteurs suggérés par la question. Chacun d'eux est déterminé par un niveau de confiance souhaité : $n$ $1-\alpha$

$t_{\min} = \min(X_1, X_2, \ldots, X_n) - k^{\min}_{\alpha, n, \sigma} \sigma$ $k^{\min}_{\alpha, n, \sigma}$ $t_{\min}$ $\mu$ $\alpha$ $\Pr(t_{\min} \gt \mu) = \alpha$
Option 1b, la procédure "max" . La limite de confiance inférieure est fixée égale à . La valeur du nombre est déterminée de sorte que la probabilité que dépasse la vraie moyenne est juste ; c'est-à-dire, . $t_{\max} = \max(X_1, X_2, \ldots, X_n) - k^{\max}_{\alpha, n, \sigma} \sigma$ $k^{\max}_{\alpha, n, \sigma}$ $t_{\max}$ $\mu$ $\alpha$ $\Pr(t_{\max} \gt \mu) = \alpha$
Option 2, la procédure "moyenne" . La limite de confiance inférieure est fixée égale à . La valeur du nombre est déterminée de sorte que la probabilité que dépasse la vraie moyenne est juste ; c'est-à-dire, . $t_\text{mean} = \text{mean}(X_1, X_2, \ldots, X_n) - k^\text{mean}_{\alpha, n, \sigma} \sigma$ $k^\text{mean}_{\alpha, n, \sigma}$ $t_\text{mean}$ $\mu$ $\alpha$ $\Pr(t_\text{mean} \gt \mu) = \alpha$

Comme cela est bien connu, où ; est la fonction de probabilité cumulée de la distribution normale standard. C'est la formule citée dans la question. Un raccourci mathématique est $k^\text{mean}_{\alpha, n, \sigma} = z_\alpha/\sqrt{n}$ $\Phi(z_\alpha) = 1-\alpha$ $\Phi$

$k^\text{mean}_{\alpha, n, \sigma} = \Phi^{-1}(1-\alpha)/\sqrt{n}.$

Les formules des procédures min et max sont moins connues mais faciles à déterminer:

$k^\text{min}_{\alpha,n,\sigma} = \Phi^{-1}(1-\alpha^{1/n})$ .
$k^\text{max}_{\alpha, n, \sigma} = \Phi^{-1}((1-\alpha)^{1/n})$ .

Au moyen d'une simulation, nous pouvons voir que les trois formules fonctionnent. Le Rcode suivant effectue l'expérience à n.trialsdes moments différents et signale les trois LCL pour chaque essai:

simulate <- function(n.trials=100, alpha=.05, n=5) {
  z.min <- qnorm(1-alpha^(1/n))
  z.mean <- qnorm(1-alpha) / sqrt(n)
  z.max <- qnorm((1-alpha)^(1/n))
  f <- function() {
    x <- rnorm(n); 
    c(max=max(x) - z.max, min=min(x) - z.min, mean=mean(x) - z.mean)
  }    
  replicate(n.trials, f())
}

(Le code ne prend pas la peine de travailler avec des distributions normales générales: comme nous sommes libres de choisir les unités de mesure et le zéro de l'échelle de mesure, il suffit d'étudier le cas , C'est pourquoi aucune des formules pour les différents ne dépend en fait de .) $\mu=0$ $\sigma=1$ $k^*_{\alpha,n,\sigma}$ $\sigma$

10 000 essais fourniront une précision suffisante. Exécutons la simulation et calculons la fréquence à laquelle chaque procédure ne parvient pas à produire une limite de confiance inférieure à la vraie moyenne:

set.seed(17)
sim <- simulate(10000, alpha=.05, n=5)
apply(sim > 0, 1, mean)

La sortie est

   max    min   mean 
0.0515 0.0527 0.0520

Ces fréquences sont suffisamment proches de la valeur stipulée de que nous puissions nous que les trois procédures fonctionnent comme annoncé: chacune d'elles produit une limite de confiance inférieure de 95% pour la moyenne. $\alpha=.05$

(Si vous craignez que ces fréquences diffèrent légèrement de , vous pouvez exécuter plus d'essais. Avec un million d'essais, ils se rapprochent encore de : .) $.05$ $.05$ $(0.050547, 0.049877, 0.050274)$

Cependant, une chose que nous aimerions à propos de toute procédure LCL est que non seulement elle devrait être correcte la proportion de temps prévue, mais elle devrait avoir tendance à être proche de la correction. Par exemple, imaginez un statisticien (hypothétique) qui, en raison d'une profonde sensibilité religieuse, peut consulter l'oracle Delphique (d'Apollon) au lieu de collecter les données et de faire un calcul LCL. Quand elle demande au dieu un LCL à 95%, le dieu va juste deviner la vraie moyenne et lui dire cela - après tout, il est parfait. Mais, parce que le dieu ne souhaite pas partager pleinement ses capacités avec l'humanité (qui doit rester faillible), 5% du temps, il donnera un LCL qui est de $X_1, X_2, \ldots, X_n$ $100\sigma$ trop haut. Cette procédure Delphic est également une LCL à 95% - mais elle serait effrayante à utiliser dans la pratique en raison du risque qu'elle produise une borne vraiment horrible.

Nous pouvons évaluer la précision de nos trois procédures LCL. Une bonne façon est de regarder leurs distributions d'échantillonnage: de manière équivalente, les histogrammes de nombreuses valeurs simulées feront également l'affaire. Les voici. Mais d'abord, le code pour les produire:

dx <- -min(sim)/12
breaks <- seq(from=min(sim), to=max(sim)+dx, by=dx)
par(mfcol=c(1,3))
tmp <- sapply(c("min", "max", "mean"), function(s) {
  hist(sim[s,], breaks=breaks, col="#70C0E0", 
       main=paste("Histogram of", s, "procedure"), 
       yaxt="n", ylab="", xlab="LCL");
  hist(sim[s, sim[s,] > 0], breaks=breaks, col="Red", add=TRUE)
})

Histogrammes

Ils sont représentés sur des axes x identiques (mais des axes verticaux légèrement différents). Ce qui nous intéresse sont

Les parties rouges à droite de dont les zones représentent la fréquence à laquelle les procédures ne sous-estiment pas la moyenne - sont toutes à peu près égales à la quantité souhaitée, . (Nous l'avions déjà confirmé numériquement.) $0$ $\alpha=.05$
Les spreads des résultats de simulation. Évidemment, l'histogramme le plus à droite est plus étroit que les deux autres: il décrit une procédure qui sous-estime en effet la moyenne (égale à ) à % du temps, mais même lorsqu'elle le fait, cette sous-estimation se situe presque toujours à du vrai moyen. Les deux autres histogrammes ont tendance à sous-estimer un peu plus la vraie moyenne, jusqu'à environ trop bas. De plus, lorsqu'ils surestiment la vraie moyenne, ils ont tendance à la surestimer par plus que la procédure la plus à droite. Ces qualités les rendent inférieurs à l'histogramme le plus à droite. $0$ $95$ $2 \sigma$ $3\sigma$

L'histogramme le plus à droite décrit l'option 2, la procédure LCL conventionnelle.

Une mesure de ces écarts est l'écart type des résultats de simulation:

> apply(sim, 1, sd)
     max      min     mean 
0.673834 0.677219 0.453829

Ces chiffres nous indiquent que les procédures max et min ont des écarts égaux (d'environ ) et la procédure habituelle moyenne n'a que les deux tiers environ (environ ). Cela confirme la preuve de nos yeux. $0.68$ $0.45$

Les carrés des écarts-types sont les variances, égales à , et , respectivement. Les écarts peuvent être liés à la quantité de données : si un analyste recommande la procédure max (ou min ), alors pour atteindre l'écart étroit présenté par la procédure habituelle, leur client devrait obtenir fois plus de données - plus de deux fois plus. En d'autres termes, en utilisant l'option 1, vous paieriez plus de deux fois plus pour vos informations qu'en utilisant l'option 2. $0.45$ $0.45$ $0.20$ $0.45/0.21$

— whuber
source

Vous ne manquez jamais de m'étonner.

— Momo

+1 @whuber Ceci est une belle illustration. En décrivant les intervalles de confiance du bootstrap, Efron parle de précision et d'exactitude. La précision étant que le véritable niveau de confiance de l'intervalle est proche de la valeur annoncée. Vos 3 exemples sont tous précis. L'exactitude fait référence au mieux. Pour un intervalle de confiance bilatéral qui signifierait un intervalle précis avec la largeur la plus courte (l'intervalle ou la limite basée sur la moyenne dans votre cas). Votre exemple est intéressant car les trois méthodes sont au moins quelque peu compétitives.

— Michael R. Chernick

L'option 1 des PO n'est pas près d'être compétitive pour les raisons que j'ai données dans ma réponse.

— Michael R. Chernick

@Michael J'accepte que votre interprétation de l'option 1 ne soit pas compétitive. Ce que j'ai trouvé intéressant - et exploré ici -, c'est qu'il existe des interprétations plus viables de la façon dont on pourrait «calculer la limite inférieure réelle» à partir de cinq variables distinctes, dont deux que j'ai examinées ici. J'aurais probablement dû aussi examiner de près une option "médiane": elle ne sera pas terriblement inférieure au calcul habituel (environ 40% moins efficace).

— whuber

La première option ne tient pas compte de la variance réduite que vous obtenez de l'échantillon La première option vous donne cinq limites de confiance inférieures à 95% pour la moyenne basée sur un échantillon de taille 1 dans chaque cas. Les combiner en faisant la moyenne ne crée pas de limite que vous pouvez interpréter comme une limite inférieure de 95%. Personne ne ferait ça. La deuxième option est ce qui est fait. La moyenne des cinq observations indépendantes présente une variance plus petite d'un facteur 6 que la variance pour un seul échantillon. Cela vous donne donc une borne inférieure bien meilleure que n'importe laquelle des cinq que vous avez calculées la première fois.

De plus, si X peut être supposé être iid normal, alors T sera normal. $_i$

— Michael R. Chernick
source