Am×nm≥nvAv1=argmaxv∈Rn∥Av∥2subject to ∥v∥2=1.(1)
v1Av2=argmaxv∈Rn∥Av∥2subject to ⟨v1,v⟩=0,∥v∥2=1.
v1,…,vnRnRnA
Soit (donc quantifie le pouvoir explosif de dans la direction ). Supposons que les vecteurs unitaires soient définis de telle sorte que
Les équations (2) peuvent être exprimées de manière concise en utilisant la notation matricielle sous la forme
où est la matrice dont la ème colonne est , est la matrice dont e colonne est , etσi=∥Avi∥2σiAviuiAvi=σiuifor i=1,…,n.(2)
AV=UΣ,(3)
Vn×niviUm×niuiΣest la matrice diagonale dont la ème entrée est . La matrice étant orthogonale, nous pouvons multiplier les deux côtés de (3) par pour obtenir
Il peut sembler que nous ayons maintenant calculé la SVD de avec un effort presque nul. Aucune des étapes jusqu'à présent n'a été difficile. Cependant, il manque un élément crucial de la photo: nous ne savons pas encore que est orthogonal.n×niσiVVTA=UΣVT.
AU
Voici le fait crucial, la pièce manquante: il s’avère que est orthogonal à :
Je déclare que si ce n’était pas vrai, alors ne serait pas optimal pour le problème (1). En effet, si (4) n'était pas satisfait, alors il serait possible d' améliorer en le perturbant un peu dans la direction .Av1Av2⟨Av1,Av2⟩=0.(4)
v1 v1v2
Supposons (pour une contradiction) que (4) n'est pas satisfait. Si est légèrement perturbé dans la direction orthogonale , la norme de ne change pas (ou du moins, le changement de la norme de est négligeable). Lorsque je marche à la surface de la Terre, ma distance par rapport au centre de la Terre ne change pas. Toutefois, lorsque est perturbé dans la direction , le vecteur est perturbée dans le non-orthogonal direction , et ainsi la modification de la norme est non négligeable . La norme dev1v2v1v1v1v2Av1Av2Av1Av1peut être augmenté d'un montant non négligeable. Cela signifie que n'est pas optimal pour le problème (1), ce qui est une contradiction. J'aime cet argument pour les raisons suivantes: 1) l'intuition est très claire; 2) l'intuition peut être convertie directement en une preuve rigoureuse.v1
Un argument similaire montre que est orthogonal à et , et ainsi de suite. Les vecteurs sont deux à deux orthogonaux. Cela signifie que les vecteurs unitaires peuvent être choisis orthogonaux deux à deux, ce qui signifie que la matrice ci-dessus est une matrice orthogonale. Ceci termine notre découverte du SVD.Av3Av1Av2Av1,…,Avnu1,…,unU
Pour convertir l'argument intuitif ci-dessus en une preuve rigoureuse, nous devons confronter le fait que si est perturbé dans la direction , le vecteur perturbé
n'est pas vraiment un vecteur unitaire. (Sa norme est .) Pour obtenir une preuve rigoureuse, définissez
Le vecteur est vraiment un vecteur unitaire. Mais comme vous pouvez facilement le constater, si (4) n’est pas satisfait, alors pour des valeurs suffisamment petites de nous avons
(en supposant que le signe dev1v2v~1=v1+ϵv2
1+ϵ2−−−−−√v¯1(ϵ)=1−ϵ2−−−−−√v1+ϵv2.
v¯1(ϵ)ϵf(ϵ)=∥Av¯1(ϵ)∥22>∥Av1∥22
ϵest choisi correctement). Pour montrer cela, vérifiez que . Cela signifie que n'est pas optimal pour le problème (1), ce qui est une contradiction.f′(0)≠0v1
(Soit dit en passant, je vous recommande de lire l'explication de Qiaochu Yuan du SVD ici . En particulier, jetez un oeil à « lemme Key # 1 », qui est ce que nous avons discuté ci - dessus. Comme le dit Qiaochu, lemme clé # 1 est « le coeur technique décomposition en valeurs singulières ".)