Cela me vient à l'esprit depuis au moins quelques heures. J'essayais de trouver un k optimal pour la sortie de l'algorithme k-means (avec une métrique de similitude cosinus ), donc j'ai fini par tracer la distorsion en fonction du nombre de grappes. Mon ensemble de données est une collection de 800 documents dans un espace à 600 dimensions.
D'après ce que je comprends, trouver le point du genou ou du coude sur cette courbe devrait me dire au moins approximativement le nombre de clusters dans lesquels je dois mettre mes données. Je mets le graphique ci-dessous. Le point auquel la ligne verticale rouge a été tracée a été obtenu en utilisant le test de dérivée seconde maximale . Après avoir fait tout cela, j'étais coincé à quelque chose de beaucoup plus simple: qu'est-ce que ce graphique me dit sur l'ensemble de données?
Est-ce que cela me dit que cela ne vaut pas la peine d'être regroupé et que mes documents manquent de structure ou que je dois définir un k très élevé? Une chose étrange cependant, c'est que même avec un faible k, je vois des documents similaires regroupés, donc je ne sais pas pourquoi je reçois cette courbe. Des pensées?
terms x document
obtenue après avoir effectué un vecteur singulier décomposition. Veuillez me corriger si je me trompe.