Quelle norme d'erreur de reconstruction est minimisée par la matrice d'approximation de bas rang obtenue avec l'ACP?


26

Étant donné une approximation PCA (ou SVD) de la matrice avec une matrice , nous savons que est la meilleure approximation de de bas rang .X X XXX^X^X

Est-ce conforme à la norme induite2F (c'est-à-dire la plus grande norme de valeur propre) ou à la norme Frobenius ?F

Réponses:


30

Réponse en un seul mot: les deux.


X2XF=

X2=supXv2v2=max(si)
siXSX=USV
XF=ijXij2=tr(XX)=si2,
siXSX=USV

L'ACP est donnée par la même décomposition en valeurs singulières lorsque les données sont centrées. US sont les composantes principales, V sont les axes principaux, c'est-à-dire les vecteurs propres de la matrice de covariance, et la reconstruction de X avec seulement les k composantes principales correspondant aux k plus grandes valeurs singulières est donnée par Xk=UkSkVk .

Le théorème d'Eckart-Young dit que est la matrice minimisant la norme de l'erreur de reconstructionparmi toutes les matrices de rang . Cela est vrai à la fois pour la norme Frobenius et pour l'opérateur -norm. Comme souligné par @cardinal dans les commentaires, cela a été prouvé pour la première fois par Schmidt (de la renommée Gram-Schmidt) en 1907 pour l'affaire Frobenius. Il a ensuite été redécouvert par Eckart et Young en 1936 et est maintenant principalement associé à leurs noms. Mirsky a généralisé le théorème en 1958 à toutes les normes qui sont invariantes sous les transformations unitaires, et cela inclut l'opérateur 2-norme.X - A A k 2XkXAAk2

Ce théorème est parfois appelé théorème d'Eckart-Young-Mirsky. Stewart (1993) l'appelle le théorème d'approximation de Schmidt. Je l'ai même vu appelé théorème de Schmidt-Eckart-Young-Mirsky.


Preuve pour l'opérateur -norm2

Soit de rang complet . Comme est de rang , son espace nul a dimensions. L'espace couvert par les vecteurs singuliers droits de correspondant aux plus grandes valeurs singulières a dimensions. Ces deux espaces doivent donc se croiser. Soit un vecteur unitaire de l'intersection. On obtient alors: QED.n A k n - k k + 1 X k + 1 w X - A 2XnAknkk+1Xk+1w

XA22(XA)w22=Xw22=i=1k+1si2(viw)2sk+12=XXk22,

Preuve de la norme Frobenius

Nous voulons trouver la matrice de rang qui minimise . Nous pouvons factoriser , où a colonnes orthonormées. Minimiser pour fixe est un problème de régression avec la solution . En le branchant, nous voyons que nous devons maintenant minimiser où est la matrice de covariance de , c'est-à-direk X - A 2 FAkXAF2 W k X - B W 2 W B = X W X - X W W 2 = X 2 - X W W 2 = c o n s t - t r (A=BWWkXBW2WB=XWΣ X Σ = X X / ( n - 1 ) W k

XXWW2=X2XWW2=consttr(WWXXWW)=constconsttr(WΣW),
ΣXΣ=XX/(n1). Cela signifie que l'erreur de reconstruction est minimisée en prenant comme colonnes de quelques vecteurs orthonormés maximisant la variance totale de la projection.Wk

Il est bien connu que ce sont les premiers vecteurs propres de la matrice de covariance. En effet, si , alors . En écrivant qui a aussi des colonnes orthonormées, on obtient avec un maximum atteint lorsque . Le théorème suit alors immédiatement.X = U S V Σ = V S 2 V / (kX=USV R = V W t r ( W Σ W ) = t r ( R Λ R ) = i λ i j R 2 i jk Σ=VS2V/(n1)=VΛVR=VW

tr(WΣW)=tr(RΛR)=iλijRij2i=1kλk,
W=Vk

Voir les trois fils associés suivants:


Tentative antérieure de démonstration de la norme Frobenius

Cette preuve que j'ai trouvée quelque part en ligne mais elle est fausse (contient un écart), comme expliqué par @cardinal dans les commentaires.

La norme de Frobenius est invariante sous les transformations unitaires, car elles ne modifient pas les valeurs singulières. On obtient donc: où . Continue:Ceci est minimisé lorsque tous les éléments hors diagonale de sont nuls et que tous les termes diagonaux annulent les plus grandes valeurs singulières [écart ici: ce n'est pas évident] , c'est-à-dire et donc .s i - B i i ) 2 + i j B 2 i j . B k k s i B o p t i m a l = S k A o p t i m a l = U k S k V k

XAF=USVA=SUAV=SB,
B=UAV
XAF=ij(SijBij)2=i(siBii)2+ijBij2.
Bkksi Boptimal=SkAoptimal=UkSkVk

2
La preuve dans le cas de la norme de Frobeniius n'est pas correcte (ou du moins complète) car l'argument ici n'exclut pas la possibilité qu'une matrice de même rang puisse annuler certains des autres termes diagonaux tout en ayant des "petits" off- diagonales. Pour voir l'écart plus clairement, notez que le fait de maintenir les diagonales constantes et de "mettre à zéro" les hors diagonales peut souvent augmenter le rang de la matrice en question!
cardinal

1
Notez également que la SVD était connue de Beltrami (au moins dans un cas assez général, bien que spécial) et de Jordan dès 1874.
Cardinal

BSki(siBii)2ijBij2
amibe dit Réintégrer Monica

3
Je fais comme GW Stewart (1993), Au début de l' histoire de la décomposition de valeurs singulières, SIAM Review , vol. 35, non. 4, 551-566 et, compte tenu de votre intérêt démontré antérieur pour les questions historiques, je pense que vous aussi. Malheureusement, je pense que Stewart est involontairement trop dédaigneux de l'élégance de la preuve de Schmidt de 1907. Caché dedans, il y a une interprétation de régression que Stewart néglige et qui est vraiment assez jolie. Il existe une autre preuve qui suit l'approche de diagonalisation initiale que vous adoptez, mais qui nécessite un travail supplémentaire pour combler l'écart. (suite)
Cardinal

2
@cardinal: Oui, vous avez raison, maintenant je vois aussi l'écart. Merci beaucoup pour l'article de Stewart, c'était une lecture très intéressante. Je vois que Stewart présente les preuves de Schmidt et Weyl, mais les deux semblent plus compliquées que ce que je voudrais copier ici (et jusqu'à présent, je n'ai pas eu le temps de les étudier attentivement). Je suis surpris: je m'attendais à ce que ce soit un résultat très simple, mais il semble que ce soit moins trivial que je ne le pensais. En particulier, je ne m'attendais pas à ce que le cas de Frobenius soit tellement plus compliqué que celui de l'opérateur normal. Je vais modifier le message maintenant. Bonne année!
amibe dit Réintégrer Monica le
En utilisant notre site, vous reconnaissez avoir lu et compris notre politique liée aux cookies et notre politique de confidentialité.
Licensed under cc by-sa 3.0 with attribution required.