J'essaie de supprimer les mots vides avant d'effectuer la modélisation du sujet. J'ai remarqué que certains mots de négation (pas, ni, jamais, aucun, etc.) sont généralement considérés comme des mots vides. Par exemple, NLTK, spacy et sklearn incluent "not" dans leurs listes de mots vides. Cependant, si nous supprimons «non» de ces phrases ci-dessous, elles perdent leur signification significative et ce ne serait pas exact pour la modélisation de sujet ou l'analyse des sentiments.
1). StackOverflow is helpful => StackOverflow helpful
2). StackOverflow is not helpful => StackOverflow helpful
Quelqu'un peut-il expliquer pourquoi ces mots de négation sont généralement considérés comme des mots vides?