J'essaie d'effectuer un clustering au niveau du document. J'ai construit la matrice de fréquence terme-document et j'essaie de regrouper ces vecteurs de haute dimension en utilisant k-means. Au lieu de regrouper directement, ce que j'ai fait, j'ai d'abord appliqué la décomposition vectorielle singulière de LSA (Latent Semantic Analysis) pour obtenir les matrices U, S, Vt, sélectionné un seuil approprié à l'aide du tracé éboulis et appliqué un regroupement sur les matrices réduites (spécifiquement Vt parce que cela me donne une information concept-document) qui semblait me donner de bons résultats.
J'ai entendu certaines personnes dire que SVD (décomposition vectorielle singulière) est un regroupement (en utilisant une mesure de similitude en cosinus, etc.) et je ne savais pas si je pouvais appliquer des k-moyennes sur la sortie de SVD. Je pensais que c'était logiquement correct parce que la SVD est une technique de réduction de dimensionnalité, me donne un tas de nouveaux vecteurs. k-means, d'autre part, prendra le nombre de clusters comme entrée et divisera ces vecteurs en le nombre spécifié de clusters. Cette procédure est-elle imparfaite ou existe-t-il des moyens d'améliorer cela? Aucune suggestion?