Plusieurs bonnes réponses laissent encore de la place pour plus de commentaires.
Premièrement, personne ne s'est opposé à l'idée que la médiane vise à éliminer les valeurs aberrantes, mais je vais la nuancer. La signification voulue est évidente, mais il est facile pour des données réelles d'être plus compliquées. Tout au plus, la médiane vise à réduire ou à ignorer les valeurs aberrantes, mais même cela n'est pas garanti. Par exemple, avec des notes de 1 1 1 5 5 5, la médiane et la moyenne sont d'accord à 3, donc tout peut sembler bon. Mais un 5 supplémentaire fera basculer la médiane à 5 et un 1 supplémentaire fera basculer la médiane à 1. La moyenne se déplacerait d'environ 0,286 dans chaque cas. La moyenne est donc ici plus résistante que la médiane. L'exemple peut être rejeté comme inhabituel, mais ce n'est pas scandaleux. Le point n'est pas original, naturellement. Il est fait à Mosteller, F. et Tukey, JW 1977. Analyse et régression des données.Reading, MA: Addison-Wesley, pp.34-35.
Deuxièmement, des moyens réduits ont été mentionnés et l'idée mérite une plus grande poussée. La moyenne et la médiane n'ont pas besoin d'être des alternatives radicales pour que l'analyste choisisse (vote pour) l'une ou l'autre. Vous pouvez considérer tous les moyens de rognage possibles en fonction du rognage d'un certain nombre de valeurs dans chaque queue . Le tableau indique en # le nombre de valeurs incluses dans le calcul de la moyenne:
+----------------------------+
| number # trimmed mean |
|----------------------------|
| 0 16 4.0625 |
| 1 14 4.214286 |
| 2 12 4.416667 |
| 3 10 4.6 |
| 4 8 4.75 |
| 5 6 4.833333 |
| 6 4 5 |
| 7 2 5 |
+----------------------------+
L'image principale ici est que vous pouvez choisir votre taux d'actualisation (ignorer autant de valeurs suspectes dans chaque queue) comme une sorte d'assurance contre le risque d'être hors tension en raison de valeurs extrêmes. Ce que je vois est un gradient assez lisse entre la moyenne et la médiane, qui est attendu ici car les valeurs possibles 1, 2, 3, 4, 5 sont toutes présentes dans les données. Un grand saut dans la séquence est attendu avec une valeur aberrante isolée.
Il n'y a aucune obligation avec des moyens coupés de couper des nombres égaux dans chaque queue, mais je ne développerai pas là-dessus.
Troisièmement, l'exemple est celui des avis Amazon. Le contexte est toujours pertinent pour guider la façon dont vous souhaitez résumer les données . Dans le cas des critiques Amazon, la meilleure réponse est de lire les critiques! Les notes élevées et basses pouvant être fausses (implicitement: l'auteur de ce livre est mon ami) et / ou sans rapport avec votre décision (explicitement: le revendeur m'a mal traité), il n'y a pas pour moi d'évidence implication sur la façon de résumer ces données, et en effet en vous montrant la distribution Amazon est au maximum informative.
Quatrièmement, et le plus élémentaire mais aussi fondamental de tous, qui vous fait choisir? Parfois, la moyenne et la médiane doivent toutes deux être déclarées (et, comme nous l'avons dit, un graphique de distribution également).