Dans la factorisation NMF, le paramètre (noté r dans la plupart des publications) est le rang de l'approximation de V et est choisi tel que k < min ( m , n ) . Le choix du paramètre détermine la représentation de vos données V dans une base trop complète composée des colonnes de W ; le w i , i = 1 , 2 , ⋯ , k . Le résultat est que les rangs des matrices W et H ont une limite supérieure dekrVk<min(m,n)VWwi , i=1,2,⋯,kWH et le produit W H est une approximation de bas rang de V ; aussi k au plus. Par conséquent, le choix de k < min ( m , n ) devrait constituer une réduction de dimensionnalité où V peut être généré / étendu à partir des vecteurs de base susmentionnés.kWHVkk<min(m,n)V
De plus amples détails peuvent être trouvés dans le chapitre 6 de ce livre de S. Theodoridis et K. Koutroumbas.
Après minimisation de votre fonction de coût choisie par rapport à et H , le choix optimal de k ( choisi empiriquement en travaillant avec différents sous-espaces de caractéristiques) devrait donner V ∗ , une approximation de V , avec des caractéristiques représentatives de votre matrice de données initiale V . WHkV∗VV
Travailler avec différents sous-espaces d'entités en ce sens que, le nombre de colonnes dans W , est le nombre de vecteurs de base dans le sous-espace NMF. Et travailler empiriquement avec différentes valeurs de k équivaut à travailler avec différents espaces d'entités à dimension réduite.kWk