Je veux utiliser l'allocation Dirichlet latente pour un projet et j'utilise Python avec la bibliothèque gensim. Après avoir trouvé les sujets, j'aimerais regrouper les documents en utilisant un algorithme tel que k-means (Idéalement, j'aimerais en utiliser un bon pour les clusters qui se chevauchent, donc toute recommandation est la bienvenue). J'ai réussi à obtenir les sujets mais ils se présentent sous la forme de:
0,041 * Ministre + 0,041 * Clé + 0,041 * moments + 0,041 * controversé + 0,041 * Premier
Afin d'appliquer un algorithme de clustering et de me corriger si je me trompe, je pense que je devrais trouver un moyen de représenter chaque mot comme un nombre en utilisant soit tfidf soit word2vec.
Avez-vous des idées sur la façon dont je pourrais "retirer" les informations textuelles d'une liste, par exemple, afin de le faire, puis les replacer afin de faire la multiplication appropriée?
Par exemple, la façon dont je le vois si le mot ministre a un poids tfidf de 0,042 et ainsi de suite pour tout autre mot dans le même sujet, je devrais calculer quelque chose comme:
0,041 * 0,42 + ... + 0,041 * tfidf (Prime) et obtenez un résultat qui sera utilisé plus tard afin de regrouper les résultats.
Merci pour votre temps.