Je suis à la recherche de conseils sur la façon de gérer une liste de mots vides. Quelqu'un sait-il / quelqu'un peut-il recommander une bonne méthode pour extraire des listes de mots vides du jeu de données lui-même pour le prétraitement et le filtrage?
Les données:
une énorme quantité de texte humain de longueur variable (termes de recherche et phrases entières (jusqu'à 200 caractères)) sur plusieurs années. Le texte contient beaucoup de spam (comme la saisie de machines par des bots, des mots simples, des recherches stupides, des recherches de produits ...) et seulement quelques% semblent utiles. J'ai réalisé que parfois (mais très rarement) les gens fouillent mon côté en posant des questions vraiment cool. Ces questions sont tellement cool que je pense qu'il vaut la peine de les approfondir pour voir comment les gens recherchent au fil du temps et quels sujets les gens ont été intéressés à utiliser mon site Web.
Mon problème:
c'est que j'ai vraiment du mal avec le prétraitement (c'est-à-dire la suppression du spam). J'ai déjà essayé une liste de mots vides sur le Web (NLTK, etc.), mais cela n'aide pas vraiment mes besoins concernant cet ensemble de données.
Merci pour vos idées et vos discussions!
stop words
. Stop-wrods est une liste de la plupart des mots dans une langue, par exemple I
, the
, a
et ainsi de suite. Vous allez simplement supprimer ces mots de votre texte avant de commencer à former votre algorithme qui essaie d'identifier quel texte est du spam ou non. Cela ne vous a pas aidé à identifier le texte spam ou non, cela peut améliorer votre algorithme d'apprentissage.