Quelle (s) est / sont la différence (s) entre ces modèles de représentation textuelle: sac de mots et modèle d'espace vectoriel?
Quelle (s) est / sont la différence (s) entre ces modèles de représentation textuelle: sac de mots et modèle d'espace vectoriel?
Réponses:
Le sac de mots et le modèle d'espace vectoriel font référence à différents aspects de la caractérisation d'un corps de texte tel qu'un document. Ils sont bien décrits dans le manuel "Speech and Language Processing" de Jurafsky et Martin, 2009, dans la section 23.1 sur la recherche d'informations. Une référence plus concise est «Introduction à la recherche d'informations» par Manning, Raghavan et Schütze, 2008, dans la section «Le modèle d'espace vectoriel pour la notation».
Sac de mots fait référence au type d'informations que vous pouvez extraire d'un document (à savoir, les mots unigrammes). Le modèle d'espace vectoriel fait référence à la structure des données pour chaque document (à savoir, un vecteur caractéristique de paires de termes et de termes). Les deux aspects se complètent.
Plus précisement:
Sac de mots : pour un document donné, vous extrayez uniquement les mots unigrammes (alias termes) pour créer une liste de mots non ordonnée. Pas de balise POS, pas de syntaxe, pas de sémantique, pas de position, pas de bigrammes, pas de trigrammes. Seuls les mots unigrammes eux-mêmes, ce qui en fait un tas de mots pour représenter le document. Ainsi: sac de mots .
Modèle d'espace vectoriel : étant donné le sac de mots que vous avez extrait du document, vous créez un vecteur d'entité pour le document, où chaque entité est un mot (terme) et la valeur de l'entité est un poids de terme. Le terme poids pourrait être:
L'ensemble du document est donc un vecteur d'entité, et chaque vecteur d'entité correspond à un point dans un espace vectoriel . Le modèle de cet espace vectoriel est tel qu'il y a un axe pour chaque terme du vocabulaire, et donc l'espace vectoriel est de dimension V , où V est la taille du vocabulaire. Conceptuellement, le vecteur devrait également être de dimension V avec une caractéristique pour chaque terme de vocabulaire. Cependant, comme le vocabulaire peut être volumineux (de l'ordre de V = 100 000s de termes), le vecteur de caractéristiques d'un document ne contiendra généralement que les termes qui se sont produits dans ce document et omettra les termes qui ne l'ont pas été. Un tel vecteur caractéristique est considéré comme clairsemé .
Un exemple de représentation vectorielle d'un document pourrait ainsi ressembler à ceci:
DOCUMENT_ID_42 LABEL_POLITICS a 55 ability 1 about 5 absent 2 abuse 1 access 1
accompanied 1 accompanying 2 according 2 account 1 accounted 1 accurate 1
acknowledge 4 activities 1 actual 1 actually 2 administering 1 ...
où cet exemple de vecteur a un identifiant de document (par exemple 42), une étiquette de vérité au sol (par exemple politique) et une liste de caractéristiques et de valeurs de caractéristiques comprenant des paires de fréquences terme / terme. Ici, on peut voir que le mot "absent" est apparu 2 fois dans ce document.
Est-ce que l'utilisation de Bag of Words vous attribuez la fréquence des mots à l'élément de matrice de terme de document et dans le modèle d'espace vectoriel les éléments de matrice de terme de document sont assez généraux tant que les opérations (produit scalaire) dans l'espace vectoriel ont un sens (poids tf-idf, pour exemple)?