Une approche traditionnelle de la construction d'entités pour l'exploration de texte est une approche par sac de mots, et peut être améliorée à l'aide de tf-idf pour configurer le vecteur d'entités caractérisant un document texte donné. À l'heure actuelle, j'essaie d'utiliser un modèle de langage bi-gram ou (N-gram) pour créer un vecteur d'entités, mais je ne sais pas trop comment faire? Pouvons-nous simplement suivre l'approche du sac de mots, c'est-à-dire calculer le nombre de fréquences en termes de gramme au lieu de mots, et l'améliorer en utilisant le schéma de pondération tf-idf?