Il y a beaucoup de réponses à cette question. En voici une que vous ne verrez probablement pas ailleurs, alors je l'inclue ici car je pense que c'est pertinent pour le sujet. Les gens croient souvent que parce que la médiane est considérée comme une mesure robuste en ce qui concerne les valeurs aberrantes, elle est également robuste pour la plupart des choses. En fait, il est également jugé robuste de biaiser les distributions asymétriques. Ces deux propriétés robustes de la médiane sont souvent enseignées ensemble. On peut noter que les distributions asymétriques sous-jacentes ont également tendance à générer de petits échantillons qui semblent être des valeurs aberrantes et la sagesse conventionnelle est de pouvoir utiliser les médianes dans de telles situations.
#function to generate random values from a skewed distribution
rexg <- function (n, m, sig, tau) {
rexp(n, rate = 1/tau) + rnorm(n, mean = m, sd = sig)
}
(juste une démonstration que ceci est biaisé et la forme de base)
hist(rexg(1e4, 0, 1, 1))
Voyons maintenant ce qui se passe si nous échantillonnons dans cette distribution diverses tailles d’échantillons et calculons la médiane et les moyens de voir quelles sont leurs différences.
#generate values with various n's
N <- 1e4
ns <- 2:30
y <- sapply(ns, function(x) mean(apply(matrix(rexg(x*N, 0, 1, 1), ncol = N), 2, median)))
plot(ns,y, type = 'l', ylim = c(0.85, 1.03), col = 'red')
y <- sapply(ns, function(x) mean(colMeans(matrix(rexg(x*N, 0, 1, 1), ncol = N))))
lines(ns,y)
Comme on peut le voir sur le graphique ci-dessus, la médiane (en rouge) est beaucoup plus sensible au n que la moyenne. Ceci est contraire à certaines idées reçues concernant l’utilisation de médianes avec un faible ns, en particulier si la distribution peut être faussée. Et, cela renforce le point que la moyenne est une valeur connue alors que la médiane est sensible à d'autres propriétés, l'une si n étant.
Cette analyse est similaire à celle de Miller, J. (1988). Un avertissement sur le temps de réaction médian. Journal of Experimental Psychology: Perception et performance humaines , 14 (3): 539–543.
RÉVISION
Après avoir réfléchi au problème de l’asymétrie, j’ai estimé que l’impact sur la médiane pourrait être simplement dû au fait que, dans les petits échantillons, il est plus probable que la médiane se trouve dans la queue de la distribution, alors que la moyenne sera presque toujours pondérée par des valeurs plus proches de la mode. Par conséquent, si l’on échantillonnait simplement avec une probabilité de valeurs aberrantes, on obtiendrait peut-être les mêmes résultats.
J'ai donc pensé aux situations dans lesquelles des valeurs aberrantes peuvent se produire et dans lesquelles des expérimentateurs peuvent tenter de les éliminer.
Si des valeurs aberrantes se produisent régulièrement, par exemple une fois sur un échantillon de données, les médianes sont robustes face à l’effet de cette valeur aberrante et à l’histoire classique de l’utilisation des médianes.
Mais ce n'est généralement pas ainsi que les choses se passent.
On peut trouver une valeur aberrante dans très peu de cellules d'une expérience et décider d'utiliser la médiane plutôt que la moyenne dans ce cas. Encore une fois, la médiane est plus robuste, mais son impact réel est relativement faible car il y a très peu de valeurs aberrantes. Ce serait certainement un cas plus courant que celui ci-dessus, mais l’effet de l’utilisation d’une médiane serait probablement si faible que cela n’aurait pas beaucoup d’importance.
Peut-être plus communément des valeurs aberrantes pourraient être une composante aléatoire des données. Par exemple, la moyenne réelle et l'écart type de la population peuvent être d'environ 0 mais il y a un pourcentage du temps que nous échantillonnons d'une population aberrante où la moyenne est de 3. Considérez la simulation suivante, dans laquelle une telle population est échantillonnée en faisant varier l'échantillon Taille.
#generate n samples N times with an outp probability of an outlier.
rout <- function (n, N, outp) {
outPos <- sample(0:1,n*N, replace = TRUE, prob = c(1-outp,outp))
numOutliers <- sum(outPos)
y <- matrix( rnorm(N*n), ncol = N )
y[which(outPos==1)] <- rnorm(numOutliers, 4)
return(y)
}
outp <- 0.1
N <- 1e4
ns <- 3:30
yMed <- sapply(ns, function(x) mean(apply(rout(x,N,outp), 2, median)))
var(yMed)
yM <- sapply(ns, function(x) mean(colMeans(rout(x,N,outp))))
var(yM)
plot(ns,yMed, type = 'l', ylim = range(c(yMed,yM)), ylab = 'Y', xlab = 'n', col = 'red')
lines(ns,yM)
La médiane est en rouge et la moyenne en noir. Ceci est une conclusion similaire à celle d'une distribution asymétrique.
Dans un exemple relativement pratique d'utilisation des médianes pour éviter les effets des valeurs aberrantes, on peut trouver des situations où l'estimation est affectée par n beaucoup plus lorsque la médiane est utilisée que lorsque la moyenne est utilisée.