Par souci de simplicité, disons que je travaille sur l'exemple classique des e-mails spam / non-spam.
J'ai un ensemble de 20000 e-mails. Parmi ceux-ci, je sais que 2000 sont du spam, mais je n'ai aucun exemple d'e-mails non-spam. Je voudrais prédire si les 18 000 restants sont du spam ou non. Idéalement, le résultat que je recherche est une probabilité (ou une valeur p) que l'e-mail soit du spam.
Quel (s) algorithme (s) puis-je utiliser pour faire une prédiction raisonnable dans cette situation?
En ce moment, je pense à une méthode basée sur la distance qui me dirait à quel point mon courrier électronique est similaire à un courrier indésirable connu. Quelles options ai-je?
Plus généralement, puis-je utiliser une méthode d'apprentissage supervisé, ou dois-je nécessairement avoir des cas négatifs dans mon ensemble de formation pour le faire? Suis-je limité à des approches d'apprentissage non supervisées? Qu'en est-il des méthodes semi-supervisées?