J'utilise l'indexation sémantique latente pour trouver des similitudes entre les documents ( merci JMS! )
Après la réduction des dimensions, j'ai essayé le clustering k-means pour regrouper les documents en clusters, ce qui fonctionne très bien. Mais j'aimerais aller un peu plus loin et visualiser les documents comme un ensemble de nœuds, où la distance entre deux nœuds est inversement proportionnelle à leur similitude (les nœuds qui sont très similaires sont proches les uns des autres).
Il me semble que je ne peux pas réduire avec précision une matrice de similitude à un graphique à 2 dimensions, car mes données sont> 2 dimensions. Donc, ma première question: existe-t-il une façon standard de procéder?
Puis-je simplement réduire mes données à deux dimensions, puis les tracer sur les axes X et Y, et cela suffirait-il pour un groupe de ~ 100-200 documents? Si c'est la solution, est-il préférable de réduire mes données à 2 dimensions dès le départ, ou est-il possible de choisir les deux "meilleures" dimensions à partir de mes données multidimensionnelles?
J'utilise Python et la bibliothèque gensim si cela fait une différence.