Ces termes se mélangent beaucoup, mais j'aimerais savoir quelles sont, selon vous, les différences, le cas échéant.
Merci
Ces termes se mélangent beaucoup, mais j'aimerais savoir quelles sont, selon vous, les différences, le cas échéant.
Merci
Réponses:
LSA et LSI sont principalement utilisés de manière synonyme, la communauté de recherche d'informations s'y référant généralement sous le nom de LSI. LSA / LSI utilise SVD pour décomposer la matrice de termes-documents A en une matrice de termes-concepts U, une matrice de valeurs singulières S et une matrice de documents-concepts V sous la forme: A = USV '. La page wikipedia contient une description détaillée de l'indexation sémantique latente .
En particulier, alors que LSA et LSI utilisent SVD pour faire leur magie, il existe une méthode plus simple sur le plan des calculs et des concepts appelée HAL (Hyperspace Analogue to Language) qui passe en revue le texte en gardant une trace des contextes précédents et suivants. Des vecteurs sont extraits de ces matrices de cooccurrence (souvent pondérées) et des mots spécifiques sont sélectionnés pour indexer l'espace sémantique. À bien des égards, on me donne à comprendre qu'il fonctionne aussi bien que LSA sans nécessiter l'étape mathématiquement / conceptuellement complexe de SVD. Voir Lund & Burgess, 1996 pour plus de détails.
NMF et SVD sont tous deux des algorithmes de factorisation matricielle. Wikipedia a quelques informations pertinentes sur NMF .
), les valeurs singulières sont simplement les valeurs absolues des valeurs propres. Dans tous les cas, les valeurs singulières ne sont pas négatives et perdre le signe des valeurs propres est le prix à payer pour pouvoir travailler avec des matrices non carrées.
Les autres intervenants ont couvert LSI / LSA ...