Je me demande comment étiqueter (étiqueter) des phrases / paragraphes / documents avec doc2vec dans gensim - d'un point de vue pratique.
Avez-vous besoin d'avoir chaque phrase / paragraphe / document avec sa propre étiquette unique (par exemple "Sent_123")? Cela semble utile si vous voulez dire "quels mots ou phrases sont les plus similaires à une seule phrase spécifique intitulée" Sent_123 ".
Pouvez-vous faire répéter les étiquettes en fonction du contenu? Par exemple, si chaque phrase / paragraphe / document concerne un certain article de produit (et qu'il existe plusieurs phrases / paragraphes / documents pour un article de produit donné), pouvez-vous étiqueter les phrases en fonction de l'article, puis calculer la similitude entre un mot ou un phrase et cette étiquette (ce qui, je suppose, serait comme une moyenne de toutes les phrases qui avaient à voir avec le produit)?