Une approche courante de la classification des textes consiste à former un classificateur à partir d'un «sac de mots». L'utilisateur prend le texte à classer et compte les fréquences des mots dans chaque objet, suivi d'une sorte de recadrage pour conserver la matrice résultante d'une taille gérable.
Souvent, je vois des utilisateurs construire leur vecteur d'entités à l'aide de TFIDF. En d'autres termes, les fréquences de texte notées ci-dessus sont pondérées par la fréquence des mots dans le corpus. Je vois pourquoi TFIDF serait utile pour sélectionner les mots «les plus distinctifs» d'un document donné pour, disons, les afficher à un analyste humain. Mais dans le cas d'une catégorisation de texte utilisant des techniques de ML standardisées supervisées, pourquoi se préoccuper de la sous-pondération par la fréquence des documents dans le corpus? L'apprenant ne décidera-t-il pas lui-même de l'importance à attribuer à chaque mot / combinaison de mots? Je vous serais reconnaissant de vos réflexions sur la valeur ajoutée de Tsahal, le cas échéant.