J'ai du mal à comprendre la différence entre l'erreur type et l'écart type. En quoi sont-elles différentes et pourquoi avez-vous besoin de mesurer l'erreur type?
J'ai du mal à comprendre la différence entre l'erreur type et l'écart type. En quoi sont-elles différentes et pourquoi avez-vous besoin de mesurer l'erreur type?
Réponses:
Voici une réponse plus pratique (et non mathématique):
Notez que les erreurs standard peuvent être calculées pour presque tous les paramètres calculés à partir de données, pas seulement la moyenne. La phrase "l'erreur type" est un peu ambiguë. Les points ci-dessus ne concernent que l’erreur type de la moyenne.
(Extrait du Guide de statistiques GraphPad que j'ai écrit.)
(Notez que je me concentre sur l'erreur type de la moyenne, ce que le questionneur, je crois, l'était également, mais vous pouvez générer une erreur type pour toute statistique de l'échantillon.)
L'erreur type est liée à l'écart type, mais il ne s'agit pas de la même chose et l'augmentation de la taille de l'échantillon ne les rapproche pas. Au contraire, cela les rend plus éloignés. L'écart type de l'échantillon se rapproche de l'écart type de la population lorsque la taille de l'échantillon augmente, mais pas l'erreur type.
Parfois, la terminologie autour de ceci est un peu lourde à comprendre.
Lorsque vous collectez un échantillon et que vous calculez l'écart type de cet échantillon, l'estimation de l'écart type devient de plus en plus précise à mesure que la taille de l'échantillon augmente. D'après votre question, il semble que vous ayez pensé à cela. Mais considérons également que la moyenne de l'échantillon tend à être plus proche de la moyenne de la population. C'est essentiel pour comprendre l'erreur type.
L'erreur standard concerne ce qui se produirait si vous obteniez plusieurs échantillons d'une taille donnée. Si vous prenez un échantillon de 10, vous pouvez obtenir une estimation de la moyenne. Ensuite, vous prenez un autre échantillon de 10 et une nouvelle estimation moyenne, et ainsi de suite. L’écart type de la moyenne de ces échantillons est l’erreur type. Étant donné que vous avez posé votre question, vous pouvez probablement voir maintenant que si le N est élevé, l’erreur type est plus petite, car la moyenne des échantillons sera moins susceptible de s'écarter beaucoup de la valeur réelle.
Cela semble quelque peu miraculeux à certains, étant donné que vous avez calculé cela à partir d'un échantillon. Vous pouvez donc amorcer une erreur standard à l'aide d'une simulation pour illustrer la relation. En R cela ressemblerait à:
# the size of a sample
n <- 10
# set true mean and standard deviation values
m <- 50
s <- 100
# now generate lots and lots of samples with mean m and standard deviation s
# and get the means of those samples. Save them in y.
y <- replicate( 10000, mean( rnorm(n, m, s) ) )
# standard deviation of those means
sd(y)
# calcuation of theoretical standard error
s / sqrt(n)
Vous constaterez que ces deux dernières commandes génèrent le même nombre (environ). Vous pouvez faire varier les valeurs n, m et s et elles apparaîtront toujours assez proches les unes des autres.