Jeux de données de référence pour le filtrage collaboratif


9

Je voudrais tester un nouvel algorithme de filtrage collaboratif . Un cas d'utilisation typique consiste à recommander des films en fonction des préférences des utilisateurs similaires à l'utilisateur spécifique.

Quels sont les ensembles de données de référence communs que les chercheurs utilisent souvent pour tester leurs algorithmes? Je sais que dans Computer Vision, les gens utilisent souvent MNIST ou CIFAR, mais je n'ai pas trouvé d'ensembles de données similaires pour le filtrage collaboratif.


1
Avez-vous jeté un coup d'œil à l'ensemble de données de prix Netflix? Oui, la compétition est terminée depuis longtemps et elle a été retirée du site officiel pour des raisons de confidentialité. Vous pouvez toujours essayer de le trouver dans d'autres endroits.
Vladislavs Dovgalecs

Kaggle.com en a un tas. Recherchez simplement «recommandation dans: ensemble de données» ou «recommandation dans: compétition».
ran8

Réponses:


8

La réponse évidente serait l'ensemble de données du prix Netflix, il y a beaucoup de recherches à ce sujet et la plupart des algorithmes CF ont des scores connus.

Il existe d'autres jeux de données disponibles qui sont généralement utilisés comme références:

  • Movie Lens Dataset : un ensemble de données de 20 millions de notes utilisé pour comparer les algorithmes CF;

  • Jester Dataset : un ensemble de données de recommandations de blagues avec plus de 6 millions de notes;

  • Vous pouvez trouver de nombreux autres jeux de données dans ce lien


En utilisant notre site, vous reconnaissez avoir lu et compris notre politique liée aux cookies et notre politique de confidentialité.
Licensed under cc by-sa 3.0 with attribution required.