Je dois faire face à un problème de classification de texte. Un robot d'indexation analyse des pages Web d'un certain domaine et pour chaque page Web, je veux savoir si elle appartient à une seule classe spécifique ou non. Autrement dit, si j'appelle cette classe positive , chaque page Web analysée appartient à la classe positive ou à la classe non positive .
J'ai déjà un grand ensemble de pages Web de formation pour la classe Positive . Mais comment créer un ensemble de formation pour la classe Non Positive qui soit le plus représentatif possible? Je veux dire, je pourrais essentiellement utiliser chacun et tout pour cette classe. Puis-je simplement collecter des pages arbitraires qui n'appartiennent certainement pas à la classe Positive ? Je suis sûr que les performances d'un algorithme de classification de texte (je préfère utiliser un algorithme Naive Bayes) dépendent fortement des pages Web que je choisis pour la classe Non positif .
Alors, que dois-je faire? Quelqu'un peut-il me donner un conseil? Merci beaucoup!