Ce que l'on entend par variance dans plusieurs dimensions («variance totale») est simplement une somme de variances dans chaque dimension. Mathématiquement, c'est une trace de la matrice de covariance: la trace est simplement une somme de tous les éléments diagonaux. Cette définition a diverses propriétés intéressantes, par exemple la trace est invariante sous les transformations linéaires orthogonales, ce qui signifie que si vous tournez vos axes de coordonnées, la variance totale reste la même.
Ce qui est prouvé dans le livre de Bishop (section 12.1.1), c'est que le vecteur propre principal de la matrice de covariance donne la direction de la variance maximale. Le deuxième vecteur propre donne la direction de la variance maximale sous une contrainte supplémentaire qu'il doit être orthogonal au premier vecteur propre, etc. (je crois que cela constitue l'exercice 12.1). Si l'objectif est de maximiser la variance totale dans le sous-espace 2D, alors cette procédure est une maximisation gourmande: choisissez d'abord un axe qui maximise la variance, puis un autre.
Votre question est: pourquoi cette procédure gourmande obtient-elle un maximum global?
Voici un bel argument que @whuber a suggéré dans les commentaires. Alignons d'abord le système de coordonnées avec les axes PCA. La matrice de covariance devient diagonale: . Pour simplifier, nous considérerons le même cas 2D, c'est-à-dire quel est le plan avec la variance totale maximale? Nous voulons prouver que c'est le plan donné par les deux premiers vecteurs de base (avec variance totale ).Σ=diag(λi)λ1+λ2
Considérons un plan couvert par deux vecteurs orthogonaux et . La variance totale dans ce plan estIl s'agit donc d'une combinaison linéaire de valeurs propres avec des coefficients tous positifs, ne dépassant pas (voir ci-dessous) et totalisant . Si c'est le cas, alors il est presque évident que le maximum est atteint à .uv
u⊤Σu+v⊤Σv=∑λiu2i+∑λiv2i=∑λi(u2i+v2i).
λi12λ1+λ2
Il ne reste plus qu'à montrer que les coefficients ne peuvent pas dépasser . Notez que , où est le vecteur de base . Cette quantité est une longueur au carré d'une projection de sur le plan couvert par et . Par conséquent, elle doit être inférieure à la longueur au carré de qui est égale à , QED.1u2k+v2k=(u⋅k)2+(v⋅k)2kkkuvk|k|2=1
Voir aussi la réponse de @ cardinal à Quelle est la fonction objective de l'ACP? (il suit la même logique).