J'ai 2 jeux de données, un avec des instances positives de ce que je voudrais détecter et un avec des instances sans étiquette. Quelles méthodes puis-je utiliser?
Par exemple, supposons que nous voulons comprendre la détection des e-mails de spam sur la base de quelques caractéristiques structurées des e-mails. Nous avons un ensemble de données de 10000 e-mails de spam et un ensemble de données de 100000 e-mails pour lesquels nous ne savons pas s'il s'agit de spam ou non.
Comment pouvons-nous résoudre ce problème (sans étiqueter manuellement aucune des données non étiquetées)?
Que pouvons-nous faire si nous avons des informations supplémentaires sur la proportion de spam dans les données non étiquetées (c'est-à-dire si nous estimons qu'entre 20 et 40% des 100 000 e-mails non étiquetés sont du spam)?