PCA et proportion de variance expliquée


91

En général, que veut dire que la fraction de la variance dans une analyse comme ACP est expliquée par la première composante principale? Est-ce que quelqu'un peut expliquer cela intuitivement, mais aussi donner une définition mathématique précise de ce que "variance expliquée" signifie en termes d'analyse en composantes principales (ACP)?x

Pour une régression linéaire simple, le r-carré de la droite de meilleur ajustement est toujours décrit comme la proportion de la variance expliquée, mais je ne sais pas trop quoi en faire. Est-ce que la proportion de variance ici est simplement l'étendue de la déviation de points par rapport à la droite de meilleur ajustement?


Réponses:


105

Dans le cas de PCA, "variance" signifie variance sommative ou variabilité multivariée ou variabilité globale ou totale . Vous trouverez ci-dessous la matrice de covariance de 3 variables environ. Leurs variances sont sur la diagonale et la somme des 3 valeurs (3.448) est la variabilité globale.

   1.343730519   -.160152268    .186470243 
   -.160152268    .619205620   -.126684273 
    .186470243   -.126684273   1.485549631

Maintenant, PCA remplace les variables d'origine par de nouvelles variables, appelées composantes principales, qui sont orthogonales (c'est-à-dire qu'elles ont une covariation nulle) et présentent des variances (appelées valeurs propres) par ordre décroissant. La matrice de covariance entre les principales composantes extraites des données ci-dessus est donc la suivante:

   1.651354285    .000000000    .000000000 
    .000000000   1.220288343    .000000000 
    .000000000    .000000000    .576843142

Notez que la somme en diagonale est toujours de 3,448, ce qui signifie que les 3 composantes représentent l’ensemble de la variabilité multivariée. La 1ère composante principale explique ou "explique" 1,651 / 3,448 = 47,9% de la variabilité globale; le second explique 1.220 / 3.448 = 35.4% de celui-ci; le 3ème explique 0,57 / 3,448 = 16,7%.

Alors, que veulent-ils dire quand ils disent que " PCA maximise la variance " ou " PCA explique la variance maximale "? Ce n'est pas, bien sûr, qu'il trouve la plus grande variance parmi trois valeurs 1.343730519 .619205620 1.485549631, non. PCA trouve, dans l'espace de données, la dimension (la direction) avec la plus grande variance par rapport à la variance globale1.343730519+.619205620+1.485549631 = 3.448 . Ce plus grand écart serait 1.651354285. Ensuite, il trouve la dimension de la deuxième variance la plus grande, orthogonale à la première, par rapport à la 3.448-1.651354285variance globale restante . Cette deuxième dimension serait la 1.220288343variance. Etc. La dernière dimension restante est la .576843142variance. Voir aussi "Pt3" ici et la bonne réponse ici expliquant comment cela s'est fait plus en détail.

Mathématiquement, la PCA est réalisée via des fonctions d’algèbre linéaire appelées décomposition propre ou décomposition svd. Ces fonctions vous renverront toutes les valeurs propres 1.651354285 1.220288343 .576843142(et les vecteurs propres correspondants) à la fois ( voir , voir ).


1
Que voulez-vous dire par: "Notez que la somme en diagonale est toujours de 3,448, ce qui signifie que les 3 composantes tiennent compte de toute la variabilité multivariée" et quelle est la différence entre votre méthode et votre PoV (proportion de variation)?
Kamaci

2
Je ne suggère aucune "méthode". Je viens d’expliquer que tous les ordinateurs génèrent la même variabilité totale que les variables d’origine.
ttnphns

Pouvez-vous vérifier ma question: stats.stackexchange.com/questions/44464/…
kamaci

Je suis désolé :-( Je ne peux pas actuellement Il y a trop de commentaires pour syntoniser..
ttnphns

1
si vous venez de lire la question, cela suffit. Il n'y a rien aux commentaires.
Samedi

11

@ttnphns a fourni une bonne réponse, peut-être pourrais-je ajouter quelques points. Tout d’abord, je tiens à souligner qu’il y avait une question pertinente sur le CV, avec une réponse très ferme: vous voulez absolument y jeter un coup d’œil. Dans ce qui suit, je ferai référence aux parcelles présentées dans cette réponse.

Les trois graphiques affichent les mêmes données. Notez qu'il existe une variabilité verticale et horizontale dans les données, mais nous pouvons penser que la majeure partie de la variabilité est réellement diagonale . Dans le troisième graphique, cette longue ligne noire diagonale est le premier vecteur propre (ou la première composante principale), et la longueur de cette composante principale (l'étalement des données le long de cette ligne - et non la longueur de la ligne elle-même, qui est juste dessiné sur la parcelle) est la première valeur propreC'est le montant de la variance représenté par la première composante principale. Si vous additionniez cette longueur avec la longueur de la deuxième composante principale (qui est la largeur de la dispersion orthogonale des données par rapport à la diagonale), puis divisiez l'une des valeurs propres par ce total, vous obtiendriez le pourcentage de la variance représentée par la composante principale correspondante.

D'autre part, pour comprendre le pourcentage de la variance prise en compte dans la régression, vous pouvez regarder le graphique du haut. Dans ce cas, la ligne rouge correspond à la ligne de régression ou à l'ensemble des valeurs prédites du modèle. La variance expliquée peut être comprise comme le rapport de la dispersion verticale de la ligne de régression (c'est-à-dire du point le plus bas sur la ligne au plus haut sur la ligne) à la diffusion verticale des données (c'est-à-dire du point le plus bas au point de données le plus élevé). Bien sûr, ce n’est qu’une idée vague, car c’est littéralement ce sont des fourchettes, pas des écarts, mais cela devrait vous aider à comprendre.

Assurez-vous de lire la question. Et, bien que j'ai mentionné la réponse principale, plusieurs des réponses fournies sont excellentes. Cela vaut la peine de lire toutes ces informations.


3

Il existe une réponse mathématique très simple, directe et précise à la question initiale.

Y1Y2YpRi2

a1a2apPC1=a1Y1+a2Y2++apYpi=1pRi2(Yi|PC1)

En ce sens, vous pouvez interpréter le premier PC comme un maximiseur de "variance expliquée" ou, plus précisément, comme un maximiseur de "variance totale expliquée".

bi=c×aic0

Pour des références à la littérature originale et à ses extensions, voir

Westfall, PH, Arias, AL et Fulton, LV (2017). Enseignement des composantes principales à l’aide de corrélations, Recherche comportementale multivariée, 52, 648-660.


0

Y=A+BYABYABYABvar(Y)=var(A)+var(B)+2cov(A,B)Ab0+b1XBeY=b0+b1X+eYb0+b1X

Y


Vous devriez vérifier votre formule pour la variance de Y: ce n'est pas correct. Plus important encore, la tentative d'explication de régression ne décrit pas correctement l'APC ni la manière dont les gens y pensent et l'utilisent.
whuber

1
Ty, erreur corrigée dans la formule. Ma réponse concerne la deuxième partie de la question concernant la proportion de variance expliquée par la droite de régression.
Jeune
En utilisant notre site, vous reconnaissez avoir lu et compris notre politique liée aux cookies et notre politique de confidentialité.
Licensed under cc by-sa 3.0 with attribution required.