J'ai un problème de regrouper une énorme quantité de phrases en groupes par leur signification. Ceci est similaire à un problème lorsque vous avez beaucoup de phrases et que vous souhaitez les regrouper par leur signification.
Quels algorithmes sont suggérés pour ce faire? Je ne connais pas le nombre de clusters à l'avance (et comme de plus en plus de données arrivent, les clusters peuvent également changer), quelles fonctionnalités sont normalement utilisées pour représenter chaque phrase?
J'essaie maintenant les fonctionnalités les plus simples avec juste une liste de mots et la distance entre les phrases définies comme:
(A et B sont des ensembles de mots correspondants dans les phrases A et B)
Est-ce que cela a du sens?
J'essaie d'appliquer l' algorithme Mean-Shift de la bibliothèque scikit à cette distance, car il ne nécessite pas de nombre de clusters à l'avance.
Si quelqu'un conseille de meilleures méthodes / approches pour le problème - il sera très apprécié car je suis encore nouveau sur le sujet.