Comment fonctionne l'erreur standard?

17

J'ai récemment étudié le fonctionnement interne de l'erreur standard et je me suis trouvé incapable de comprendre comment cela fonctionne. D'après ce que je comprends de l'erreur type, il s'agit de l'écart type de la distribution des moyennes des échantillons. Mes questions sont:

• comment savons-nous que l'erreur-type est l'écart-type des moyennes de l'échantillon alors que nous ne prenons habituellement qu'un seul échantillon?

• pourquoi l'équation pour calculer l'erreur standard ne reflète-t-elle pas l'équation de l'écart type pour un seul échantillon?

standard-error

— luciano
source

Lorsque vous dites «échantillon unique», voulez-vous dire un ensemble d'échantillons ou vraiment une taille d'échantillon de 1?

— Erik

1

Ceux-ci sont expliqués pour un problème simple mais intéressant (une réponse ternaire) dans un langage simple et non statistique sur stats.stackexchange.com/a/18609 .

— whuber

13

Oui, l'erreur type de la moyenne (SEM) est l'écart type (SD) des moyennes. (L'erreur standard est une autre façon de dire SD d'une distribution d'échantillonnage. Dans ce cas, la distribution d'échantillonnage est la moyenne pour des échantillons de taille fixe, disons N.) Il existe une relation mathématique entre le SEM et la population SD: SEM = population SD / la racine carrée de N. Cette relation mathématique est très utile, car nous n'avons presque jamais d'estimation directe du SEM mais nous avons une estimation de la population SD (à savoir la SD de notre échantillon). Quant à votre deuxième question, si vous deviez collecter plusieurs échantillons de taille N et calculer la moyenne de chaque échantillon, vous pourriez estimer le SEM simplement en calculant la SD des moyennes. Ainsi, la formule pour SEM reflète bien la formule pour la SD d'un seul échantillon.

— Joel W.
source

13

Supposons que sont indépendants et identiques. C'est la situation à laquelle je suis presque sûr de faire référence. Soit leur moyenne commune et leur variance commune . $X_1, X_2, \ldots, X_n$ $\mu$ $\sigma^2$

Maintenant, la moyenne de l'échantillon est . La linéarité de l'espérance montre que la moyenne de est également . L'hypothèse d'indépendance implique que la variance de est la somme des variances de ses termes. Chacun de ces termes a une variance (parce que la variance d'une constante fois une variable aléatoire est la constante au carré multipliée par la variance de la variable aléatoire). Nous avons $X_b=\sum_i X_i/n$ $X_b$ $\mu$ $X_b$ $X_i/n$ $\sigma^2/n^2$ $n$ réparties de manière identique pour additionner ces variables, de sorte que chaque terme a la même variance. Par conséquent, nous obtenons pour la variance de la moyenne de l'échantillon. $n \sigma^2/n^2 = \sigma^2/n$

Habituellement, nous ne connaissons pas et nous devons donc l'estimer à partir des données. Selon le paramètre, il existe différentes manières de procéder. Les deux estimations à usage général les plus courantes de sont la variance de l' échantillon $\sigma^2$ $\sigma^2$ et un petit multiple de celui-ci, $s^2 = \frac{1}{n}\sum_i(X_i-X_b)^2$ (qui est un estimateur sans biais de). L'utilisation de l'un de ces deux à la place dedans le paragraphe précédent et la prise de la racine carrée donne l'erreur standard sous la forme de $s_u^2 = \frac{n}{n-1}s^2$ $\sigma^2$ $\sigma^2$ ou $s/\sqrt{n}$ . $s_u/\sqrt{n}$

— Michael R. Chernick
source

1

C'est très bien. Avez-vous des suggestions de livres ou de lectures pour développer des compétences similaires. Merci.

— q126y le

Réponse élégante!

— Jinhua Wang

7

σ_{\bar{x}}^{2} = \frac{σ_{p o p}^{2}}{n_{j}},

$\sigma^2_{\bar x}=\frac{\sigma^2_{pop}}{n_j},$ where

σ_{p o p}^{2}

$\sigma^2_{pop}$ is the population variance, and

n_{j}

$n_j$ is the number of groups. Although we don't usually perform the calculations in this way, we could simply use standard formulas to plug in estimated values, and with minimal algebraic reshuffling, form the

F

$F$ statistic like so:

F = \frac{n_{j} \times s_{\bar{x}}^{2}}{s_{pooled within group}^{2}}

$F=\frac{n_j\times s^2_{\bar x}}{s^2_{\text{pooled within group}}}$ In this case, we really would be using the standard formula (only applied over the group means), that is:

s_{\bar{x}}^{2} = \frac{\sum_{j = 1}^{n_{j}} ({\bar{x}}_{j} - {\bar{x}}_{.})^{2}}{n_{j} - 1},

$s^2_{\bar x}=\frac{\sum_{j=1}^{n_j}(\bar x_j-\bar x_.)^2}{n_j-1},$ with

x_{.}

$x_.$ being the mean of the group means.

In that we typically believe the null hypothesis is not true, @JoelW.'s point is right, but I work through this point, because I think the clarity it affords is helpful for understanding these issues.

— gung - Reinstate Monica
source

2

I think your comment is basically the same as this one, which was written with less mathematical notation: stats.stackexchange.com/questions/32206/…

— Joel W.