Dans une classification simple, nous avons deux classes: classe 0 et classe 1. Dans certaines données, je n'ai que des valeurs pour la classe 1, donc aucune pour la classe 0. Maintenant, je pense à faire un modèle pour modéliser les données pour la classe 1. Ainsi, lorsque de nouvelles données arrivent, ce modèle est appliqué aux nouvelles données et trouve une probabilité indiquant la probabilité que de nouvelles données correspondent à ce modèle. Puis en comparant avec un seuil, je peux filtrer les données inappropriées.
Mes questions sont:
- Est-ce une bonne façon de travailler avec de tels problèmes?
- Un classificateur RandomForest peut-il être utilisé dans ce cas? Dois-je ajouter des données artificielles pour la classe 0 que j'espère que le classificateur considère comme du bruit?
- Une autre idée peut-elle aider à résoudre ce problème?