J'essaie de mettre en place un package d'exploration de données pour les sites StackExchange et en particulier, je suis coincé en essayant de déterminer les questions "les plus intéressantes". Je voudrais utiliser le score de la question, mais supprimer le biais dû au nombre de vues, mais je ne sais pas comment aborder cela avec rigueur.
Dans le monde idéal, je pourrais trier les questions en calculant , où est le total des votes et est le nombre de vues. Après tout, cela mesurerait le pourcentage de personnes qui votent positivement, moins le pourcentage de personnes qui votent contre la question. vn
Malheureusement, le schéma de vote est beaucoup plus compliqué. Les votes ont tendance à "plafonner" à un certain niveau, ce qui a pour effet de sous-estimer considérablement les questions extrêmement populaires. Dans la pratique, une question avec 1 point de vue et 1 vote positif marquerait certainement et serait triée plus haut que toute autre question avec 10 000 vues, mais moins de 10 000 votes.
J'utilise actuellement comme formule empirique, mais je voudrais être précis. Comment aborder ce problème avec rigueur mathématique?
Afin de répondre à certains des commentaires, je vais essayer de reformuler le problème d'une meilleure manière:
Disons que j'ai une question avec votes au total et vues. Je voudrais pouvoir estimer le nombre total de votes plus probable lorsque les vues atteignent .n 0 v 1 n 1
De cette façon, je pouvais simplement choisir une valeur nominale pour et commander toutes les questions en fonction du total attendu .v 1
J'ai créé deux requêtes sur le datadump SO pour mieux montrer l'effet dont je parle:
Résultat:
Score moyen par vues (seaux de 100 vues)
Résultat:
Résultats, je ne sais pas si plus droit est meilleur: ( en bleu, en rouge) v