Question:
Existe-t-il des directives générales concernant les caractéristiques des données d'entrée, qui peuvent être utilisées pour décider entre l'application de l'ACP par rapport à LSA / LSI?
Bref résumé de PCA vs LSA / LSI:
L'analyse en composantes principales (PCA) et l'analyse sémantique latente (LSA) ou l'indexation sémantique latente (LSI) sont similaires en ce sens qu'elles reposent toutes fondamentalement sur l'application de la décomposition en valeurs singulières (SVD) à une matrice.
Pour autant que je sache, LSA et LSI sont la même chose. LSA ne diffère pas de PCA pas fondamentalement, mais en termes de la façon dont les entrées de matrice sont prétraitées avant d'appliquer le SVD.
Dans LSA, l'étape de prétraitement implique généralement la normalisation d'une matrice de comptage où les colonnes correspondent à des «documents» et les lignes correspondent à une sorte de mot. Les entrées peuvent être considérées comme une sorte de compte (normalisé) d'occurrence de mot pour le document.
En PCA, l'étape de prétraitement consiste à calculer la matrice de covariance à partir de la matrice d'origine. La matrice d'origine est conceptuellement de nature plus «générale» que dans le cas du LSA. En ce qui concerne l'ACP, les colonnes font généralement référence à des vecteurs d'échantillonnage génériques et les lignes font référence à des variables individuelles qui sont mesurées. La matrice de covariance est par définition carrée et symétrique et en fait il n'est pas nécessaire d'appliquer la SVD, car la matrice de covariance peut être décomposée par diagonalisation. Notamment, la matrice PCA sera presque certainement plus dense que la variante LSA / LSI - les entrées nulles ne se produiront que lorsque la covariance entre les variables est nulle, c'est-à-dire que les variables sont indépendantes.
Enfin, un autre point descriptif qui est fait assez fréquemment pour distinguer les deux est que
LSA recherche le meilleur sous-espace linéaire dans la norme Frobenius, tandis que PCA vise le meilleur sous-espace linéaire affine.
Dans tous les cas, les différences et les similitudes de ces techniques ont été vivement débattues dans divers forums à travers les internets, et il y a clairement quelques différences saillantes, et clairement ces deux techniques produiront des résultats différents.
Je répète donc ma question: existe-t-il des directives générales concernant les caractéristiques des données d'entrée, qui peuvent être utilisées pour décider entre l'application de l'APC par rapport à LSA / LSI? Si j'ai quelque chose qui ressemble à une matrice de document terminologique, LSA / LSI sera-t-il toujours le meilleur choix? Pourrait-on espérer obtenir de meilleurs résultats dans certains cas en préparant le terme / matrice de doc pour LSA / LSI puis en appliquant PCA au résultat, au lieu d'appliquer directement la SVD?