Souvent, les textes introductifs de statistiques appliquées distinguent la moyenne de la médiane (souvent dans le contexte des statistiques descriptives et motivent la synthèse de la tendance centrale en utilisant la moyenne, la médiane et le mode) en expliquant que la moyenne est sensible aux valeurs aberrantes dans les données d'échantillonnage et / ou à des distributions asymétriques de la population, ce qui est utilisé pour justifier une affirmation selon laquelle la médiane doit être préférée lorsque les données ne sont pas symétriques.
Par exemple:
La meilleure mesure de la tendance centrale pour un ensemble de données donné dépend souvent de la façon dont les valeurs sont réparties ... Lorsque les données ne sont pas symétriques, la médiane est souvent la meilleure mesure de la tendance centrale. Parce que la moyenne est sensible aux observations extrêmes, elle est tirée dans le sens des valeurs des données périphériques et, par conséquent, pourrait finir par se gonfler ou se dégonfler excessivement. "-
Pagano et Gauvreau, (2000) Principles of Biostatistics , 2e éd. (P&G était à portée de main, BTW, ne les distinguait pas en soi .)
Les auteurs définissent ainsi la «tendance centrale»: «La caractéristique la plus étudiée d'un ensemble de données est son centre, ou le point autour duquel les observations ont tendance à se regrouper».
Cela me semble être une façon moins que directe de dire n'utiliser que la médiane, point , car utiliser uniquement la moyenne lorsque les données / distributions sont symétriques revient à dire n'utiliser la moyenne que lorsqu'elle est égale à la médiane. Edit: whuber souligne à juste titre que je confond des mesures robustes de tendance centrale avec la médiane. Il est donc important de garder à l'esprit que je discute du cadrage spécifique de la moyenne arithmétique par rapport à la médiane dans les statistiques appliquées introductives (où, à part le mode, d'autres mesures de tendance centrale ne sont pas motivées).
Plutôt que de juger de l'utilité de la moyenne en fonction de son écart par rapport au comportement de la médiane, ne devrions-nous pas simplement les comprendre comme deux mesures différentes de la centralité? En d'autres termes, être sensible à l'asymétrie est une caractéristique de la moyenne. On pourrait tout aussi bien soutenir que "la médiane n'est pas bonne parce qu'elle est largement insensible à l'asymétrie, alors ne l'utilisez que lorsqu'elle est égale à la moyenne".
(Le mode ne se sent pas assez impliqué dans cette question.)