Ma question porte généralement sur la décomposition en valeurs singulières (SVD), et en particulier sur l'indexation sémantique latente (LSI).
Dis, j'ai qui contient des fréquences de 5 mots pour 7 documents.
A = matrix(data=c(2,0,8,6,0,3,1,
1,6,0,1,7,0,1,
5,0,7,4,0,5,6,
7,0,8,5,0,8,5,
0,10,0,0,7,0,0), ncol=7, byrow=TRUE)
rownames(A) <- c('doctor','car','nurse','hospital','wheel')
J'obtenir la matrice factorisation de en utilisant SVD: A = U ⋅ D ⋅ V T .
s = svd(A)
D = diag(s$d) # singular value matrix
S = diag(s$d^0.5 ) # diag matrix with square roots of singular values.
En 1 et 2 , il est indiqué que:
donne la matrice de similarité des mots, où les rangées de W o r d S i m représentent des mots différents.
WordSim = s$u %*% S
donne la matrice de similitude des documentsoù les colonnes de D o c S i m représentent différents documents.
DocSim = S %*% t(s$v)
Des questions: