Comme Karl Broman l'a dit dans sa réponse, une approche bayésienne serait probablement bien meilleure que d'utiliser des intervalles de confiance.
Le problème avec les intervalles de confiance
Pourquoi l'utilisation d'intervalles de confiance ne fonctionne-t-elle pas trop bien? Une des raisons est que si vous ne disposez pas de nombreuses évaluations pour un élément, votre intervalle de confiance sera très large, de sorte que la limite inférieure de l'intervalle de confiance sera petite. Ainsi, les articles sans beaucoup d’évaluations se retrouveront au bas de votre liste.
Intuitivement, cependant, vous souhaitez probablement que les éléments sans beaucoup d’évaluations soient proches de l’élément moyen. Vous souhaitez donc modifier l’évaluation estimée de l’élément pour obtenir l’évaluation moyenne de tous les éléments (c’est-à-dire que vous souhaitez pousser votre évaluation estimée vers un précédent ). . C'est exactement ce que fait une approche bayésienne.
Approche bayésienne I: Distribution normale sur les cotes
Une façon de déplacer la note estimée vers un précédent est, comme dans la réponse de Karl, d'utiliser une estimation de la forme :w∗R+(1−w)∗C
- R est la moyenne des notes attribuées aux articles.
- C est la moyenne de tous les éléments (ou de tout ce que vous souhaitez réduire auparavant).
- Notez que la formule est juste une combinaison pondérée de et .CRC
- Rvmw=vv+m est le poids attribué à , où est le nombre de commentaires pour la bière et est une sorte de paramètre de "seuil" constant.Rvm
- Notez que lorsque est très grande, à savoir, quand nous avons beaucoup de notes pour l'élément en cours, alors est très proche de 1, donc notre note estimée est très proche de et nous payons peu d' attention à l'avant . Cependant, lorsque est petit, est très proche de 0, de sorte que la valeur estimée attribue beaucoup de poids au précédent .w R C v w CvwRCvwC
On peut en fait donner à cette estimation une interprétation bayésienne en tant qu’estimation postérieure de la note moyenne de l’article lorsque les notes individuelles proviennent d’une distribution normale centrée autour de cette moyenne.
Cependant, l'hypothèse que les notations proviennent d'une distribution normale pose deux problèmes:
- Une distribution normale est continue , mais les notations sont discrètes .
- Les évaluations d'un élément ne suivent pas nécessairement une forme gaussienne unimodale. Par exemple, votre article est peut-être très polarisant, de sorte que les gens ont tendance à lui attribuer une note très élevée ou très basse.
Approche bayésienne II: Distribution multinomiale sur cotes
Ainsi, au lieu de supposer une distribution normale pour les notations, supposons une distribution multinomiale . C'est-à-dire que, pour un élément spécifique, il existe une probabilité qu'un utilisateur aléatoire lui attribue 1 étoile, une probabilité qu'un utilisateur aléatoire lui attribue 2 étoiles, etc.p 2p1p2
Bien sûr, nous n'avons aucune idée de ce que sont ces probabilités. Comme nous obtenons de plus en plus d’évaluations pour cet élément, nous pouvons deviner que est proche de , où est le nombre d’utilisateurs qui lui ont attribué une étoile et est le nombre total d’utilisateurs ayant évalué l'article, mais lorsque nous commençons, nous n'avons rien. Nous donc un Dirichlet avant sur ces probabilités.n 1p1 n1nDir(α1,…,αk)n1nn1n Dir(α1,…,αk)
Quel est ce Dirichlet avant? Nous pouvons considérer chaque paramètre comme un "décompte virtuel" du nombre de fois qu'une personne virtuelle a attribué à l'élément étoiles. Par exemple, si , et tous les autres sont égaux à 0, nous pouvons penser que cela signifie que deux personnes virtuelles ont attribué à l'élément une étoile et une personne virtuelle à l'élément deux. étoiles. Donc, avant même d'avoir des utilisateurs réels, nous pouvons utiliser cette distribution virtuelle pour fournir une estimation de la note de l'élément. i α 1 = 2 α 2 = 1 α iαiiα1=2α2=1αi
[Une façon de choisir les paramètres serait de définir égal à la proportion globale des votes de étoiles. (Notez que les paramètres ne sont pas nécessairement des entiers.)]α i i α iαiαiiαi
Ensuite, une fois que les évaluations réelles sont entrées, ajoutez simplement leurs comptes aux comptes virtuels de votre Dirichlet antérieur. Chaque fois que vous souhaitez estimer la note de votre article, il suffit de prendre la moyenne de toutes les notes de l'article (à la fois ses notes virtuelles et ses notes réelles).