Quels jeux de données disponibles gratuitement puis-je utiliser pour former un classificateur de texte?
Nous essayons d'améliorer l'engagement de nos utilisateurs en lui recommandant le contenu le plus connexe, alors nous avons pensé que si nous classions notre contenu en fonction d'un sac de mots prédéfini, nous pouvons lui recommander un contenu engageant en obtenant ses commentaires sur un nombre aléatoire de messages déjà classés. avant.
Nous pouvons utiliser cette information pour lui recommander des légumineuses étiquetées avec ces classes. Mais nous avons trouvé que si nous avons utilisé un sac de mots prédéfinis sans rapport avec notre contenu, le vecteur de fonctionnalité sera plein de zéros, également les catégories peuvent ne pas être pertinentes pour notre contenu. pour ces raisons, nous avons essayé une autre solution qui regroupera notre contenu sans le classer.
Merci :)