Je travaille sur un projet dans R où j'ai environ 1200 e-mails d'une entreprise, dont la plupart sont étiquetés classe ou classe, qui sont les types de demandes. Environ 1000 e-mails sont étiquetés classeet 200 sont étiquetés classeMon objectif est d'utiliser l'apprentissage supervisé pour construire un modèle qui classera les nouveaux e-mails.
Mais, après beaucoup de prétraitement (analyse, suppression de mots vides, etc.) et essai d'algorithmes typiques (SVM, arbres de décision, etc.) sur une matrice de termes de document, ma matrice de confusion contenait de nombreux faux positifs et faux négatifs, mais seulement quelques faux négatifs avec SVM.
Je me demande comment pourrais-je améliorer mes résultats? Dois-je utiliser un suréchantillonnage ou une représentation bi-gramme? Je suppose que le problème est que les sujets des deux catégories sont très proches.