J'étudie différentes techniques utilisées dans le clustering de documents et je voudrais dissiper certains doutes concernant PCA (analyse en composantes principales) et LSA (analyse sémantique latente).
Première chose - quelles sont les différences entre eux? Je sais qu'en PCA, la décomposition SVD est appliquée à la matrice terme-covariance, tandis qu'en LSA c'est la matrice terme-document. Y a-t-il autre chose?
Deuxièmement - quel est leur rôle dans la procédure de regroupement de documents? De ce que j'ai lu jusqu'à présent, je déduis que leur objectif est la réduction de la dimensionnalité, la réduction du bruit et l'intégration des relations entre les termes dans la représentation. Après avoir exécuté PCA ou LSA, des algorithmes traditionnels comme k-means ou des méthodes agglomératives sont appliqués sur l'espace à terme réduit et des mesures de similitude typiques, comme la distance cosinusoïdale, sont utilisées. Corrigez-moi si j'ai tort, s'il-vous plait.
Troisièmement - est-il important que les vecteurs de termes TF / IDF soient normalisés avant d'appliquer PCA / LSA ou non? Et devraient-ils être normalisés à nouveau après cela?
Quatrièmement - disons que j'ai effectué un regroupement sur le terme espace réduit par LSA / PCA. Maintenant, comment dois-je attribuer des étiquettes aux clusters de résultats? Puisque les dimensions ne correspondent pas aux mots réels, c'est plutôt une question difficile. La seule idée qui me vient à l'esprit est de calculer les centroïdes pour chaque cluster à l'aide de vecteurs de termes originaux et de sélectionner des termes avec des poids supérieurs, mais cela ne semble pas très efficace. Existe-t-il des solutions spécifiques à ce problème? Je n'ai rien trouvé.
Je serai très reconnaissant d'avoir clarifié ces questions.