Je pense que ce qui s'est passé ici, c'est que toutes les variables étaient positivement corrélées entre elles. Dans ce cas, le 1er PC s'avère assez souvent très proche de la moyenne de toutes les variables. Si toutes les variables sont positivement corrélées avec exactement le même coefficient de corrélation , alors le 1er PC est exactement proportionnel à la moyenne de toutes les variables, comme je l'explique ici: La moyenne de toutes les variables peut-elle être considérée comme une forme brute de PCA?c
Dans ce cas simple, on peut en fait dériver mathématiquement la relation que vous demandez. Considérons la matrice de corrélation de taille qui ressemble à ceci:Son premier vecteur propre est égal à , ce qui correspond à la moyenne [échelonnée] de toutes les variables. Sa valeur propre est . La somme de toutes les valeurs propres si bien sûr donnée par la somme de tous les éléments diagonaux, c'est-à-dire . La proportion de variance expliquée par le premier PC est donc égale àn×n
⎛⎝⎜⎜⎜1cccc1cccc1cccc1⎞⎠⎟⎟⎟.
(1,1,1,1)⊤/n−−√λ1=1+(n−1)c∑λi=nR2=1n+n−1nc≈c.
Donc, dans ce cas le plus simple, la proportion de la variance expliquée par le premier PC est 100% corrélée avec la corrélation moyenne, et pour les grands est approximativement égale à elle. C'est précisément ce que nous voyons sur votre intrigue.n
Je m'attends à ce que pour les grandes matrices, ce résultat se maintienne approximativement même si les corrélations ne sont pas exactement identiques.
Mise à jour. En utilisant le chiffre affiché dans la question, on peut même essayer d'estimer le en notant que . Si nous prenons et , alors nous obtenons . Le PO a déclaré que les données étaient un "indice boursier DAX"; googler, nous voyons qu'il se compose apparemment de variables. Pas un mauvais match.n = ( 1 - c ) / ( R 2 - c ) c = 0,5 R 2 - c = 0,02 n = 25 30nn=(1−c)/(R2−c)c=0.5R2−c=0.02n=2530