Réponses:
‖X‖F=√
L'ACP est donnée par la même décomposition en valeurs singulières lorsque les données sont centrées. sont les composantes principales, sont les axes principaux, c'est-à-dire les vecteurs propres de la matrice de covariance, et la reconstruction de avec seulement les composantes principales correspondant aux plus grandes valeurs singulières est donnée par .
Le théorème d'Eckart-Young dit que est la matrice minimisant la norme de l'erreur de reconstructionparmi toutes les matrices de rang . Cela est vrai à la fois pour la norme Frobenius et pour l'opérateur -norm. Comme souligné par @cardinal dans les commentaires, cela a été prouvé pour la première fois par Schmidt (de la renommée Gram-Schmidt) en 1907 pour l'affaire Frobenius. Il a ensuite été redécouvert par Eckart et Young en 1936 et est maintenant principalement associé à leurs noms. Mirsky a généralisé le théorème en 1958 à toutes les normes qui sont invariantes sous les transformations unitaires, et cela inclut l'opérateur 2-norme. ‖ X - A ‖ A k 2
Ce théorème est parfois appelé théorème d'Eckart-Young-Mirsky. Stewart (1993) l'appelle le théorème d'approximation de Schmidt. Je l'ai même vu appelé théorème de Schmidt-Eckart-Young-Mirsky.
Soit de rang complet . Comme est de rang , son espace nul a dimensions. L'espace couvert par les vecteurs singuliers droits de correspondant aux plus grandes valeurs singulières a dimensions. Ces deux espaces doivent donc se croiser. Soit un vecteur unitaire de l'intersection. On obtient alors: QED.n A k n - k k + 1 X k + 1 w ‖ X - A ‖ 2
Nous voulons trouver la matrice de rang qui minimise . Nous pouvons factoriser , où a colonnes orthonormées. Minimiser pour fixe est un problème de régression avec la solution . En le branchant, nous voyons que nous devons maintenant minimiser où est la matrice de covariance de , c'est-à-direk ‖ X - A ‖ 2 F W k ‖ X - B W ⊤ ‖ 2 W B = X W ‖ X - X W W ⊤ ‖ 2 = ‖ X ‖ 2 - ‖ X W W ⊤ ‖ 2 = c o n s t - t r (Σ X Σ = X ⊤ X / ( n - 1 ) W k
Il est bien connu que ce sont les premiers vecteurs propres de la matrice de covariance. En effet, si , alors . En écrivant qui a aussi des colonnes orthonormées, on obtient avec un maximum atteint lorsque . Le théorème suit alors immédiatement.X = U S V ⊤ Σ = V S 2 V ⊤ / ( R = V ⊤ W t r ( W ⊤ Σ W ) = t r ( R ⊤ Λ R ) = ∑ i λ i ∑ j R 2 i j ≤ k ∑
Voir les trois fils associés suivants:
Cette preuve que j'ai trouvée quelque part en ligne mais elle est fausse (contient un écart), comme expliqué par @cardinal dans les commentaires.
La norme de Frobenius est invariante sous les transformations unitaires, car elles ne modifient pas les valeurs singulières. On obtient donc: où . Continue:Ceci est minimisé lorsque tous les éléments hors diagonale de sont nuls et que tous les termes diagonaux annulent les plus grandes valeurs singulières [écart ici: ce n'est pas évident] , c'est-à-dire et donc .s i - B i i ) 2 + ∑ i ≠ j B 2 i j . B k k s i B o p t i m a l = S k A o p t i m a l = U k S k V ⊤ k