Relation entre le percentile et l'intervalle de confiance (en moyenne)

Cette question est venue au travail lorsque quelqu'un m'a demandé quelle était la relation entre un centile et un intervalle de confiance, et j'ai eu beaucoup de mal à articuler mes pensées. Le contexte était une question très simple concernant l'estimation d'un intervalle de confiance à 95% sur une moyenne d'échantillon.

Je comprends que le théorème central limite indique que la distribution d'échantillonnage de la moyenne de toute variable aléatoire indépendante sera normale ou presque normale, si la taille de l'échantillon est suffisamment grande. Ainsi, la moyenne de l'échantillon a une distribution normale $N(\bar{x}, s/\sqrt{n})$ où est l'écart type de l'échantillon. $s$

Supposons maintenant que l'hypothèse nulle soit vraie. Ensuite, sous l'hypothèse nulle, l'intervalle de confiance à 95% autour de la moyenne de l'échantillon est $H_0: \mu_{\bar{x}} = \mu$ $\mu_{\bar{x}} \pm 1.96 * s/\sqrt{n}$

La question de mon collègue était précisément la suivante: l'erreur type n'est que l'écart type de la distribution d'échantillonnage de la moyenne. Ainsi, serait $\mu_{\bar{x}} + 1.96 * s/\sqrt{n}$ être équivalent au 97,5 centile d'une distribution créée en calculant la moyenne d'échantillonnage de nombreux échantillons de taille $n$ ?

La question était vraiment étrange pour moi parce que les centiles et les intervalles de confiance sont deux concepts distincts et la question de mon collègue posait la question de la relation entre les deux, et je suis devenu très confus mais je n'ai pas pu articuler mes points.

Toute aide serait grandement appréciée!

confidence-interval quantiles mean

— Vincent
source

À ma connaissance, pour construire l'intervalle de confiance bootstrap le plus simple à 95% pour une statistique d'intérêt (ici la moyenne), vous regardez le percentile de 2,5% du vecteur des valeurs bootstrap (la distribution d'échantillonnage) et celui de 97,5%. Ainsi, le percentile de 2,5% est la limite inférieure et le centile de 97,5% est la limite supérieure de l'IC à 95%.

— Valentin

Votre collègue a raison, les intervalles de confiance sont basés sur les centiles de la distribution d'échantillonnage de la statistique d'intérêt. Dans ce cas, la statistique est $\hat{\mu}=\frac{1}{n}\sum X_i$ . Les centiles de $X$ sont différents.

Vous pouvez vous essayer à réaliser votre expérience de dessiner de nombreux $\hat{\mu}_i$ et calculer leurs centiles. Vous trouverez un bon accord avec la formule de théorie normale à condition que $n$ pour chaque $\hat{\mu}_i$ est assez grand. Et si vous continuez à y penser, vous pourriez finir par réinventer le bootstrap, qui utilise les centiles observés de $X$ pour générer de nombreux $\hat{\mu}_i$ puis utilise les centiles de cet échantillon généré pour créer un intervalle de confiance.

— rasta
source