J'ai créé un classificateur Naive Bayes qui utilise la technique du sac de mots pour classer les messages de spam sur un babillard. Cela fonctionne, mais je pense que je pourrais obtenir de bien meilleurs résultats si mes modèles tenaient compte des ordonnances et des phrases. (ex: «filles» et «en direct» peuvent ne pas déclencher un score de spam élevé, même si les «filles en direct» sont très probablement des ordures). Comment créer un modèle prenant en compte l'ordre des mots?
J'ai envisagé de stocker des n-grammes (check-out, out-these-live, these-live-girls), mais cela semble augmenter radicalement la taille du dictionnaire dans lequel je garde le score et provoque une incohérence en tant que phrases avec très un libellé similaire mais un ordre différent s'écoulera.
Je ne suis pas lié à la classification bayésienne, mais j'aimerais quelque chose qu'une personne sans solide expérience en statistique pourrait grok et mettre en œuvre.