Comment calculer l'intervalle de confiance de la moyenne des moyennes?

19

Imaginez que vous répétiez une expérience trois fois. Dans chaque expérience, vous collectez des mesures en triple. Les triplicats ont tendance à être assez proches les uns des autres, par rapport aux différences entre les trois moyens expérimentaux. Le calcul de la moyenne est assez facile. Mais comment calculer un intervalle de confiance pour la moyenne grande?

Exemples de données:

Expérience 1:34, 41, 39

Expérience 2:45, 51, 52

Expérience 3: 29, 31, 35

Supposons que les valeurs répliquées dans une expérience suivent une distribution gaussienne, tout comme les valeurs moyennes de chaque expérience. Le SD de variation dans une expérience est plus petit que le SD parmi les moyens expérimentaux. Supposons également qu'il n'y a pas d'ordre des trois valeurs dans chaque expérience. L'ordre de gauche à droite des trois valeurs de chaque ligne est entièrement arbitraire.

L'approche simple consiste à calculer d'abord la moyenne de chaque expérience: 38,0, 49,3 et 31,7, puis à calculer la moyenne et son intervalle de confiance à 95% de ces trois valeurs. En utilisant cette méthode, la moyenne générale est de 39,7 avec un intervalle de confiance à 95% allant de 17,4 à 61,9.

Le problème avec cette approche est qu'elle ignore totalement la variation entre les triplicats. Je me demande s'il n'y a pas un bon moyen de tenir compte de cette variation.

confidence-interval multilevel-analysis

— Harvey Motulsky
source

1

Pas une réponse, juste une observation intuitive. Le CI pour la moyenne des données regroupées (tous les neuf obs) est , le CI basé sur les moyennes uniquement est . Vous ne savez pas ce que fait votre CI (faute de frappe? 17 pas 27, et 51 pas 61?), J'obtiens pour l'erreur std de trois moyennes, et comme quantile de T dist avec 2 df. Je pense que l'IC que vous recherchez se situerait quelque part entre ces deux - car vous disposez d'une mise en commun partielle. Pourrait également penser en termes de formule de variance , chaque CI utilise la moitié de la formule

(39.7 \pm 2.13)

$(39.7 \pm 2.13)$

(39.7 \pm 12.83)

$(39.7\pm 12.83)$

2.98

$2.98$

4.30

$4.30$

0.975

$0.975$

V (Y) = E [V (Y | Y_{g})] + V [E (Y | Y_{g})]

$V(Y)=E[V(Y|Y_g)]+V[E(Y|Y_g)]$

— probabilité

2

@probabilityislogic: Le SEM des trois moyens d'expérience est 5.168 (pas 2.98 comme vous l'avez écrit), et l'intervalle de confiance que j'ai donné dans le post original (17.4 à 61.9) est correct. Le SEM est calculé à partir du SD (8,95) en divisant par la racine carrée de n (racine carrée de 3). Vous avez divisé par n (3) à la place.

— Harvey Motulsky

mon erreur, devrait également remplacer par dans l'intervalle commun (même erreur là-bas)

2.13

$2.13$

6.40

$6.40$

— probabilitéislogic

le lien suivant répond-il à cela? talkstats.com/showthread.php/11554-mean-of-means

@TST, Il ne semble y avoir qu'un lien vers Wikipedia sur la variance groupée . Envie d'élaborer?

— chl

6

Il existe un intervalle de confiance naturel exact pour la grand-mère dans le modèle ANOVA unidirectionnel aléatoire équilibré

(y_{je j} ∣ μ_{je}) \sim_{iid} N (μ_{je}, σ_{w}^{2}), j = 1, \dots, J, μ_{je} \sim_{iid} N (μ, σ_{b}^{2}), je = 1, \dots, je .

$(y_{ij} \mid \mu_i) \sim_{\text{iid}} {\cal N}(\mu_i, \sigma^2_w), \quad j=1,\ldots,J, \qquad \mu_i \sim_{\text{iid}} {\cal N}(\mu, \sigma^2_b), \quad i=1,\ldots,I.$

{\bar{y}}_{i ∙}

$\bar{y}_{i\bullet}$

{\bar{y}}_{i ∙} \sim_{iid} N (μ, τ^{2})

$\bar{y}_{i\bullet} \sim_{\text{iid}} {\cal N}(\mu, \tau^2)$

τ^{2} = σ_{b}^{2} + \frac{σ_{w}^{2}}{J}

$\tau^2=\sigma^2_b+\frac{\sigma^2_w}{J}$

S S_{b}

$SS_b$

S S_{b} \sim J τ^{2} χ_{je - 1}^{2}

$SS_b \sim J\tau^2\chi^2_{I-1}$

{\bar{y}}_{∙ ∙} \sim N (μ, \frac{τ^{2}}{je})

$\bar y_{\bullet\bullet} \sim {\cal N}(\mu, \frac{\tau^2}{I})$

\frac{{\bar{y}}_{∙ ∙} - μ}{\frac{1}{\sqrt{je}} \sqrt{\frac{S S_{b}}{J (je - 1)}}}

$\frac{\bar y_{\bullet\bullet} - \mu}{\frac{1}{\sqrt{I}}\sqrt{\frac{SS_b}{J(I-1)}}}$

t

$t$

I - 1

$I-1$

μ

$\mu$

$\bar{y}_{i\bullet}$

L'approche simple consiste à calculer d'abord la moyenne de chaque expérience: 38,0, 49,3 et 31,7, puis à calculer la moyenne et son intervalle de confiance à 95% de ces trois valeurs. En utilisant cette méthode, la moyenne générale est de 39,7 avec un intervalle de confiance à 95% allant de 17,4 à 61,9.

est vrai. Et votre intuition sur la variation ignorée:

Le problème avec cette approche est qu'elle ignore totalement la variation entre les triplicats. Je me demande s'il n'y a pas un bon moyen de tenir compte de cette variation.

est faux. Je mentionne également l'exactitude d'une telle simplification dans /stats//a/72578/8402

Mise à jour 12/04/2014

Certains détails sont maintenant écrits sur mon blog: Réduire un modèle pour obtenir des intervalles de confiance .

— Stéphane Laurent
source

Vous avez besoin d'aide pour implémenter cette solution en python? stackoverflow.com/questions/45682437/…

— blehman

7

Il s'agit d'une question d'estimation dans un modèle linéaire à effets mixtes. Le problème est que la variance de la moyenne est une somme pondérée de deux composantes de variance qui doivent être estimées séparément (via une ANOVA des données). Les estimations ont différents degrés de liberté. Par conséquent, bien que l'on puisse tenter de construire un intervalle de confiance pour la moyenne en utilisant les formules habituelles à petit échantillon (Student t), il est peu probable qu'il atteigne sa couverture nominale car les écarts par rapport à la moyenne ne suivront pas exactement une distribution de Student t.

Un récent article (2010) d'Eva Jarosova, Estimation with the Linear Mixed Effects Model , traite de cette question. (En 2015, il ne semble plus être disponible sur le Web.) Dans le contexte d'un "petit" ensemble de données (même si, environ trois fois plus grand que celui-ci), elle utilise la simulation pour évaluer deux calculs d'IC approximatifs (le puits - approximation connue de Satterthwaite et "méthode de Kenward-Roger"). Ses conclusions incluent

Une étude de simulation a révélé que la qualité de l'estimation des paramètres de covariance et, par conséquent, l'ajustement des intervalles de confiance dans de petits échantillons peuvent être assez médiocres. Il est évident que même pour des données équilibrées, trois types d'intervalles [conventionnel, Satterthwaite, KR] peuvent différer considérablement. Lorsqu'une différence frappante entre les intervalles conventionnels et ajustés est observée, les erreurs standard des estimations des paramètres de covariance doivent être vérifiées. D'un autre côté, lorsque les différences entre [les trois] types d'intervalles sont faibles, l'ajustement semble inutile.

Bref, une bonne approche semble être

Calculez un IC conventionnel en utilisant les estimations des composantes de la variance et en faisant semblant qu'une distribution t s'applique.
Calculez également au moins un des CI ajustés.
Si les calculs sont «proches», acceptez l'IC conventionnel. Sinon, signalez que les données sont insuffisantes pour produire un IC fiable.

— whuber
source

L'utilisation des composantes de la variance conduit au même intervalle de confiance que j'ai calculé dans le post d'origine. La table ANOVA a un SS entre les colonnes de 480,7 avec 2 df, ce qui signifie que la MS est de 240,3. Le SD est sqrt (MSbetween / n) = sqrt (240.3 / 3) = 8.95, ce qui conduit au même CI que j'ai initialement publié (17.4 à 61.9). J'ai trouvé très difficile de suivre le document Jarasova que vous avez cité, et je ne suis pas tout à fait sûr qu'il soit pertinent ici (il semble s'agir de conceptions de mesures répétées). ???

— Harvey Motulsky

@Harvey Pour moi, votre description ressemble à des mesures répétées! Je pense que le document Jarasova est parfait.

— whuber

1

Je pense à la situation courante dans les laboratoires où les triplicates ne sont que trois bacs à essai (ou puits) différents. L'ordre des trois tel que présenté dans le tableau est arbitraire. Il n'y a pas de connexion ou de corrélation entre la réplique # 2 dans la première expérience avec la réplique # 2 dans les deuxième ou troisième expériences. Chaque expérience n'a que trois mesures. Donc pas de mesures vraiment répétées. Droite?

— Harvey Motulsky

whuber, il y a une distribution exacte des étudiants ici. Voir ma réponse.

— Stéphane Laurent

@whuber le lien que vous fournissez pour l'article d'Eva Jarasova est mort et une recherche Google n'a rien donné. Pouvez-vous corriger la référence?

— Placidia

0

Vous ne pouvez pas avoir un intervalle de confiance qui résout vos deux problèmes. Vous devez en choisir un. Vous pouvez soit en dériver un à partir d'un terme d'erreur quadratique moyenne de la variance intra-expérience qui vous permet de dire quelque chose sur la précision avec laquelle vous pouvez estimer les valeurs dans l'expérience, soit vous pouvez le faire entre et ce sera entre les expériences. Si je viens de faire le premier, j'aurais tendance à vouloir le tracer autour de 0 plutôt que autour de la grande moyenne car il ne vous dit rien sur la valeur moyenne réelle, seulement sur un effet (dans ce cas, 0). Ou vous pouvez simplement tracer les deux et décrire ce qu'ils font.

Vous avez une poignée entre les deux. Pour l'intérieur, c'est comme calculer le terme d'erreur dans une ANOVA pour faire fonctionner un MSE et à partir de là, le SE pour le CI est juste sqrt (MSE / n) (n = 3 dans ce cas).

— John
source

En fait, vous pouvez avoir un intervalle crédible pour chaque moyenne et pour la moyenne générale. Utilisez simplement un modèle bayésien à plusieurs niveaux. Parfois, ce type d'estimation est appelé mise en commun partielle. Le problème est le petit échantillon, je pense.

— Manoel Galdino

Vous pouvez avoir un intervalle de confiance pour chaque moyenne et la grande moyenne aussi ... mais ce sont des choses différentes ... tout comme les intervalles crédibles. J'ai interprété la question comme portant sur les IC en ce qui concerne la variance intra-étude et l'intervalle comme un agrégat. Tout cela vous laisse encore avec différents CI qui signifient différentes choses. (Je n'ai pas non plus pris le n littéralement)

— John

1

De plus, la façon dont je voulais dire ne peut pas vraiment "ne peut pas". Vous pourriez en quelque sorte trouver une seule équation qui calcule un intervalle de confiance pour tout. Cela ne signifierait rien de sensé. C'est ce que je voulais dire ne peut pas.

— John

Quelques minutes après avoir écrit mon commentaire, j'ai réalisé que nous n'étions pas censés prendre le n littéralement. Mais il était trop tard pour l'éditer =).

— Manoel Galdino

0

Je pense que l'IC de la moyenne générale est trop large [17,62], même pour la plage de données d'origine.

Ces expériences sont TRÈS courantes en chimie. Par exemple, dans la certification des matériaux de référence, vous devez ramasser certaines bouteilles d'un lot entier de manière aléatoire, et vous devez effectuer une analyse répliquée sur chaque bouteille. Comment calculez-vous la valeur de référence et son incertitude? Il y a beaucoup de façons de le faire, mais le plus sophistiqué (et correct, je pense) applique la méta-analyse ou ML (Dersimonian-Laird, Vangel-Rukhin, etc.)

Qu'en est-il des estimations de bootstrap?

— anéantir
source

1

La simulation (10 000 essais avec les principaux effets et erreurs normalement distribués) indique que [21, 58] est un IC bilatéral symétrique à 95% pour la moyenne.

— whuber

whuber: Je serais curieux de savoir comment vous avez fait ces simulations. Bootstrapping à partir des données d'origine? Ou vraiment des simulations? Dans ce dernier cas, quelle valeur de moyenne et d'écart-type avez-vous utilisée pour simuler des données ??

— Harvey Motulsky