Dans le cas de PCA, "variance" signifie variance sommative ou variabilité multivariée ou variabilité globale ou totale . Vous trouverez ci-dessous la matrice de covariance de 3 variables environ. Leurs variances sont sur la diagonale et la somme des 3 valeurs (3.448) est la variabilité globale.
1.343730519 -.160152268 .186470243
-.160152268 .619205620 -.126684273
.186470243 -.126684273 1.485549631
Maintenant, PCA remplace les variables d'origine par de nouvelles variables, appelées composantes principales, qui sont orthogonales (c'est-à-dire qu'elles ont une covariation nulle) et présentent des variances (appelées valeurs propres) par ordre décroissant. La matrice de covariance entre les principales composantes extraites des données ci-dessus est donc la suivante:
1.651354285 .000000000 .000000000
.000000000 1.220288343 .000000000
.000000000 .000000000 .576843142
Notez que la somme en diagonale est toujours de 3,448, ce qui signifie que les 3 composantes représentent l’ensemble de la variabilité multivariée. La 1ère composante principale explique ou "explique" 1,651 / 3,448 = 47,9% de la variabilité globale; le second explique 1.220 / 3.448 = 35.4% de celui-ci; le 3ème explique 0,57 / 3,448 = 16,7%.
Alors, que veulent-ils dire quand ils disent que " PCA maximise la variance " ou " PCA explique la variance maximale "? Ce n'est pas, bien sûr, qu'il trouve la plus grande variance parmi trois valeurs 1.343730519 .619205620 1.485549631
, non. PCA trouve, dans l'espace de données, la dimension (la direction) avec la plus grande variance par rapport à la variance globale1.343730519+.619205620+1.485549631 = 3.448
. Ce plus grand écart serait 1.651354285
. Ensuite, il trouve la dimension de la deuxième variance la plus grande, orthogonale à la première, par rapport à la 3.448-1.651354285
variance globale restante . Cette deuxième dimension serait la 1.220288343
variance. Etc. La dernière dimension restante est la .576843142
variance. Voir aussi "Pt3" ici et la bonne réponse ici expliquant comment cela s'est fait plus en détail.
Mathématiquement, la PCA est réalisée via des fonctions d’algèbre linéaire appelées décomposition propre ou décomposition svd. Ces fonctions vous renverront toutes les valeurs propres 1.651354285 1.220288343 .576843142
(et les vecteurs propres correspondants) à la fois ( voir , voir ).