La «note moyenne» d'Amazon est-elle trompeuse?


49

Si je comprends bien, les évaluations de livre sur une échelle de 1 à 5 sont des scores de Likert. C'est-à-dire qu'un 3 pour moi peut ne pas être nécessairement un 3 pour quelqu'un d'autre. C'est une échelle ordinale IMO. Il ne faut pas vraiment utiliser les échelles ordinales mais bien prendre le mode, la médiane et les centiles.

Alors, est-il «acceptable» de contourner les règles, car la grande partie de la population comprend des moyens supérieurs aux statistiques ci-dessus? Bien que les chercheurs s'opposent vivement à la moyenne des données de l'échelle de Likert, est-il acceptable de le faire avec les masses (pratiquement)? Est-ce que prendre la moyenne dans ce cas est même trompeur pour commencer?

Il semble peu probable qu'une entreprise comme Amazon tâtonne les statistiques de base, mais sinon, que manque-t-il ici? Peut-on prétendre que l'échelle ordinale est une approximation commode de l'ordinal pour justifier de prendre la moyenne? Sur quels motifs?


3
Si le 3 pour vous n'est pas le même que le 3 pour quelqu'un d'autre, vous n'avez même pas d'échelle: vous avez une collection de mesures incomparables et il y a peu de sens que vous puissiez faire pour les résumer. Ce qui rend une échelle ordinale, c’est que (a) les valeurs peuvent être comparées, ainsi vos 3 et mes 3 signifient la même chose, mais (b) les différences numériques de valeurs n’ont aucune signification en dehors de leurs signes, de sorte que (disons) deux 3, a 4 et un 2 ou un 5 et un 1 peuvent être placés dans n'importe quel ordre, même si chaque paire de notes a la même moyenne et la même médiane.
whuber

1
@whuber - mais n'est-il pas vrai que 2 personnes ne peuvent pas partager le même avis sur une échelle de 1 à 9 concernant les chiffres? Un 6 pour moi peut en effet ne pas être un 6 pour quelqu'un d'autre à moins que celui- ci n'ait une échelle prédéfinie.
PhD

1
J'ai lu récemment un article sur amazon qui disait: "Le produit est génial, je n'ai rien à redire. Je ne donnerais jamais 5 étoiles, alors j'en ai attribué 4". Si cela ne modifie pas la moyenne, je ne le sais pas
Matt Wilko

2
@ Wilko Vous parlez de différences d'opinion, pas de différences d'échelle. Même lorsqu'une échelle est très soigneusement calibrée, comme dans le cas de la gymnastique ou du patinage artistique ou de l'échelle internationale pour évaluer la difficulté des rapides sur les rivières, et même lorsque des experts sont formés pour utiliser cette échelle, des variations sont encore possibles. Cela n’est généralement pas interprété comme une preuve, l’échelle est subjective: elle est interprétée comme une variation entre les juges.
whuber

1
Désolé, ce n'est pas vraiment une réponse, mais malheureusement, la fonction "commentaire" n'a pas été trouvée. Récemment, j'ai commencé à rédiger mon mémoire de maîtrise sur les éléments clés des avis des clients. Compte tenu des circonstances suivantes, j'ai également commencé à douter de l'importance du système d'évaluation 5 étoiles d'Amazon. - Nombre de critiques
douteuses

Réponses:


42

Avantages de l’utilisation de la moyenne pour résumer la tendance centrale d’une note de 5 points

Comme @gung l'a mentionné, je pense qu'il y a souvent de très bonnes raisons de considérer la moyenne d'un élément en cinq points comme un indice de tendance centrale. J'ai déjà exposé ces raisons ici .

Paraphraser:

  1. la moyenne est facile à calculer
  2. La moyenne est intuitive et bien comprise
  3. La moyenne est un nombre unique
  4. D'autres indices donnent souvent un classement similaire des objets

Pourquoi la moyenne est bonne pour Amazon

Pensez aux objectifs d'Amazon en rapportant la moyenne. Ils pourraient viser à

  • fournir une note intuitive et compréhensible pour un article
  • assurer l'acceptation du système de notation par l'utilisateur
  • s'assurer que les gens comprennent ce que signifie l'évaluation afin de pouvoir l'utiliser de manière appropriée pour éclairer les décisions d'achat

Amazon fournit une sorte de moyenne arrondie, des comptes de fréquence pour chaque option de classement et la taille de l’échantillon (c’est-à-dire le nombre de classements). Cette information est probablement suffisante pour permettre à la plupart des gens d’apprécier à la fois le sentiment général à l’égard de cet élément et la confiance qu’il en a (un score de 4,5 sur 20 a plus de chances d’être précis que sur un 4,5 à 2; un élément de 10 5 -étoiles, et une étoile avec aucun commentaire pourrait encore être un bon article).

Vous pourriez même voir la moyenne comme une option démocratique. De nombreuses élections sont décidées en fonction du candidat qui obtient la moyenne la plus élevée sur une échelle de deux points. De même, si vous prenez l'argument que chaque personne qui soumet une révision obtient un vote, vous pouvez voir la moyenne comme un formulaire qui pondère également le vote de chaque personne.

Les différences d'échelle d'utilisation posent-elles vraiment un problème?

Il existe un large éventail de biais de notation connus dans la littérature psychologique (pour une revue, voir Saal et al 1980), tels que le biais de tendance centrale, le biais de clémence, le biais de stricte. En outre, certains évaluateurs seront plus arbitraires et d’autres plus fiables. Certains peuvent même mentir systématiquement en donnant de faux commentaires positifs ou négatifs. Cela créera diverses formes d'erreur en essayant de calculer le classement moyen réel d'un élément.

Cependant, si vous preniez un échantillon aléatoire de la population, de tels biais disparaîtraient et, avec un échantillon de taille suffisant des évaluateurs, vous obtiendriez tout de même la vraie moyenne.

Bien sûr, vous n’obtenez pas un échantillon aléatoire sur Amazon, et il existe un risque que l’ensemble des évaluateurs que vous obtenez pour un article soit systématiquement biaisé pour être plus clément ou strict, et ainsi de suite. Cela dit, je pense que les utilisateurs d'Amazon apprécieraient que les évaluations soumises par les utilisateurs proviennent d'un échantillon imparfait. Je pense aussi qu'il est très probable qu'avec un échantillon de taille raisonnable, dans la plupart des cas, la majorité des différences de biais de réponse commenceraient à disparaître.

Avancées possibles au-delà de la moyenne

En ce qui concerne l’amélioration de la précision de la notation, je ne remettrais pas en cause le concept général de la moyenne, mais je pense plutôt qu’il existe un autre moyen d’estimer la moyenne réelle de la population pour un article un grand échantillon représentatif a-t-il été invité à évaluer l'élément).

  • Évaluateurs de poids en fonction de leur fiabilité
  • Utilisez un système de notation bayésien qui estime la note moyenne comme la somme pondérée de la note moyenne de tous les articles et de la moyenne de chaque article, et augmentez la pondération de cet article à mesure que le nombre de notes augmente.
  • Ajustez les informations d'un évaluateur en fonction de toute tendance de notation générale entre les éléments (par exemple, un 5 de quelqu'un qui donne généralement 3s vaut plus que quelqu'un qui donne généralement 4s).

Ainsi, si l'exactitude de la notation était l'objectif principal d'Amazon, je pense qu'elle devrait s'efforcer d'augmenter le nombre de notations par élément et adopter certaines des stratégies ci-dessus. De telles approches pourraient être particulièrement pertinentes lors de la création d'un classement "best-of". Cependant, pour la modeste note de la page, il se pourrait bien que la signification de l'échantillon réponde mieux aux objectifs de simplicité et de transparence.

Références

  • Saal, FE, Downey, RG et Lahey, MA (1980). Notation des évaluations: évaluation de la qualité psychométrique des données d’évaluation. Psychological Bulletin, 88, 413.

1
+1 Je pense que cela va au-delà de votre réponse précédente d’une manière très agréable. J'aime particulièrement la section intitulée "Pourquoi la moyenne est bonne pour Amazon", qui énumère plus clairement ce à quoi je voulais en venir dans ma dernière phrase. "Différentes utilisations d'une échelle" est également assez perspicace; Je vous serais reconnaissant de citer une revue de cette littérature, si vous en connaissez une bonne. Je remarque cependant que la dernière section est un peu en tension avec la 2e.
Gay - Rétablir Monica

2
Merci. J'ai ajouté une référence à la littérature sur le biais de notation, et à la fin, un élément essayant de réconcilier les deux perspectives.
Jeromy Anglim

2
+1 @JeromyAnglim - une perspective complète mettant en lumière les différents aspects du problème. Gloire!
Doctorat le

+1, bonne réponse. Bien que j'ai trouvé une phrase légèrement trompeuse. Quand vous avez dit "Cependant, si vous preniez un échantillon aléatoire de la population, de tels biais disparaîtraient et, avec un échantillon suffisant d’évaluateurs, vous obtiendriez tout de même la vraie moyenne". - Je ne pense pas que cela s'applique à tous les préjugés, même si vous aviez un échantillon aléatoire de la population.
Michael Bishop

1
@ MichaelBishop Merci, je suis d'accord que ma langue était un peu bâclée là-bas. Je suppose que cela dépend de ce que l’on entend par "vrai". Je peux voir comment, si vous avez des faux dans la population, cela pourrait biaiser la moyenne non ajustée de la population par rapport à une hypothétique "vraie moyenne". Je pensais plus que tout biais systématique d'individus s'appliquant à tous les éléments s'annulerait pour permettre un classement sans classement des éléments en fonction de la moyenne résultante.
Jeromy Anglim

15

Pour être un peu technique ici, ces évaluations ne sont pas réellement une échelle de Likert ; ce sont juste des cotes ordinales. Cela dit, votre argument est essentiellement correct. Cependant, je pense souvent que l'on en fait trop. Une chose à noter est qu'il est généralement compris que la moyenne d'un nombre d'éléments ordinaux peut être d'environ un intervalle. Ainsi, lorsqu'il y a plusieurs notations, la moyenne devient une représentation plus raisonnable. J'ai trouvé cette réponse de @JeromyAnglim excellente (vraiment, la question et toutes les réponses suivantes méritent d'être lues). Pour un traitement plus théorique, voir ici. Sur une note différente, j'aime bien Amazon, mais je ne vois aucune raison de s'attendre à une sophistication statistique de leur part, en particulier en termes de conception de site de base - le but est la convivialité pour les consommateurs, pas pour impressionner les professeurs.


2
Amazon est l’un des chefs de file du secteur des technologies (Internet) en matière de conception expérimentale pour la publicité en ligne et l’utilisation de sites Web. Vous pouvez être sûr qu'ils sont en fait assez sophistiqués dans leurs approches statistiques. :-) Votre point est bon. Pour aller un peu plus loin, pouvez-vous imaginer si Amazon faisait quelque chose de "plus sophistiqué" et que quelqu'un les vérifiait en utilisant une simple moyenne, a constaté que certains éléments étaient classés "plus haut" que leur moyenne et d'autres "plus bas", s'embarrasser et quitter Amazon pour tenter d'expliquer leurs "préjugés cachés" concernant les produits?
cardinal

1
D'autres services, par exemple Netflix, évitent ce problème en ne fournissant que les données "récapitulatives". :)
cardinal

@ cardinal, c'est très intéressant, je ne le savais pas à propos d'Amazon.
Gay - Rétablir Monica

15

Tout le monde a de bonnes opinions à ce sujet. Je ne pense pas vraiment pouvoir ajouter beaucoup plus. Cependant, je vais poster ceci :


7
Je suppose que le comique montre que certaines personnes jugent mal la qualité d’un élément et qu’en moyenne sur beaucoup d’entre elles, on obtient une moyenne médiocre. En général, la sagesse des foules suggère que les moyennes donnent de bons résultats lorsqu'au moins une proportion raisonnable de la population a des connaissances. La pondération de la fiabilité peut également être une stratégie pour surmonter les problèmes.
Jeromy Anglim

1
L'autre option consiste à utiliser les recommandations de style Netflix, en comparant votre évaluation avec les évaluations d'autres utilisateurs, puis en effectuant la moyenne des évaluations proposées par les utilisateurs ayant des choix similaires à vous.
Rahul

1
@rahul C'est un bon point. Dans ma réponse, je suppose parfois que les notations sont en grande partie des scores vrais + erreur, même si l’erreur est structurée. Mais lorsqu'il s'agit de domaines dans lesquels la préférence personnelle fait partie de la définition de la qualité, cela n'a pas toujours beaucoup de sens.
Jeromy Anglim

J'aime ça, et c'est pourquoi (en tant que consommateur) j'essaie de lire les commentaires et pas seulement le nombre d'étoiles. Mais je pensais qu'il était ironique de constater que, dans ce cas, les méthodes plus "sophistiquées" de la médiane, du mode et des centiles donnent toutes un résultat pire que moyen ;-)
Darren Cook

3

D'après mon expérience, la moyenne des données d'échelle de cotation est souvent la corrélation la plus étroite avec le niveau de métriques du monde réel que nous essayons d'associer à l'échelle de cotation. Nous avons trouvé beaucoup de relations linéaires et la moyenne est donc l'un des meilleurs moyens de résumer les données. Ceci étant dit, comme Jeromy l'a fait remarquer, la plupart des méthodes d'analyse de la tendance centrale d'une échelle d'évaluation donnent des résultats similaires (ordres de classement, etc.) la plupart du temps.

De plus, je soupçonne qu’Amazon n’est probablement pas si préoccupé par la validité scientifique d’une manière ou d’une autre. En fin de compte, l'objectif d'Amazon est d'inciter les internautes à magasiner davantage sur Amazon.com, et la façon dont les revues contribuent à atteindre cet objectif ne variera probablement pas selon le récapitulatif à un chiffre utilisé. Les bons produits seront récompensés, les très mauvais produits punis et les acheteurs nerveux auront la possibilité d'examiner plus en détail les avantages et les inconvénients.


2

Les notations d'Amazon sont trompeuses en raison des sociétés qui jouent avec le système. Lorsque des remises et des produits gratuits sont proposés aux clients en échange d’évaluations 5 étoiles, les «statistiques» relatives au nombre ou aux notations d’évaluations deviennent sans objet.


1
Avez-vous des données sur la fréquence à laquelle de telles choses se produisent?
Michael Bishop

1

Vous faites un bon point. Prendre la moyenne des nombres ordinaux est quelque peu trompeur. N'importe quel résumé de plusieurs classements souffrirait du fait que mon subjectif 3 peut vraiment correspondre à votre 4. Donc, combiner différents scores individuels est probablement le plus gros problème. Interpréter la moyenne d'un 3 et d'un 4 comme 3,5 n'est pas aussi flagrant.

En utilisant notre site, vous reconnaissez avoir lu et compris notre politique liée aux cookies et notre politique de confidentialité.
Licensed under cc by-sa 3.0 with attribution required.