Je travaille avec l'ensemble de données MovieLens10M, prédisant les évaluations des utilisateurs. Si je veux évaluer équitablement mon algorithme, comment dois-je répartir mes données de formation contre mes tests?
Par défaut, je pense que les données sont divisées en ensembles de test train v. Où «test» contient des films jamais vus dans l'ensemble de formation. Si mon modèle requiert que chaque film ait été vu au moins une fois dans l'ensemble de formation, comment dois-je diviser mes données? Dois-je prendre toutes les notes de chaque utilisateur sauf N pour toutes les données et évaluer mes performances sur les notes NxUser_num affichées?