La section 1.7.2 de Découvrir les statistiques à l'aide de R par Andy Fields, et tout, tout en énumérant les vertus de la moyenne par rapport à la médiane, indique:
... la moyenne a tendance à être stable dans différents échantillons.
Ceci après avoir expliqué les nombreuses vertus de la médiane, par exemple
... La médiane n'est relativement pas affectée par les scores extrêmes aux deux extrémités de la distribution ...
Étant donné que la médiane n'est pas affectée par les scores extrêmes, j'aurais pensé qu'elle serait plus stable entre les échantillons. J'ai donc été intrigué par l'affirmation des auteurs. Pour confirmer, j'ai exécuté une simulation - j'ai généré 1M de nombres aléatoires et échantillonné 100 nombres 1000 fois et calculé la moyenne et la médiane de chaque échantillon, puis calculé le sd de ces moyennes et médianes de l'échantillon.
nums = rnorm(n = 10**6, mean = 0, sd = 1)
hist(nums)
length(nums)
means=vector(mode = "numeric")
medians=vector(mode = "numeric")
for (i in 1:10**3) { b = sample(x=nums, 10**2); medians[i]= median(b); means[i]=mean(b) }
sd(means)
>> [1] 0.0984519
sd(medians)
>> [1] 0.1266079
p1 <- hist(means, col=rgb(0, 0, 1, 1/4))
p2 <- hist(medians, col=rgb(1, 0, 0, 1/4), add=T)
Comme vous pouvez le voir, les moyens sont plus étroitement répartis que les médianes.
Dans l'image ci-jointe, l'histogramme rouge est pour les médianes - comme vous pouvez le voir, il est moins grand et a une queue plus grasse, ce qui confirme également l'affirmation de l'auteur.
Je suis sidéré par cela, cependant! Comment la médiane, qui est plus stable, peut-elle finalement varier davantage d'un échantillon à l'autre? Cela semble paradoxal! N'importe quelles idées seraient appréciées.
rnorm
par rcauchy
.