En supposant que j'ai un ensemble de données avec dimensions (par exemple ) de sorte que chaque dimension soit iid (alternativement, chaque dimension ) et indépendante de L'une et l'autre.
Maintenant, je dessine un objet aléatoire de cet ensemble de données et prends les voisins les plus proches et calcule PCA sur cet ensemble. Contrairement à ce à quoi on pourrait s'attendre, les valeurs propres ne sont pas toutes les mêmes. En 20 dimensions uniformes, un résultat typique ressemble à ceci:
0.11952316626613427, 0.1151758808663646, 0.11170020254046743, 0.1019390988585198,
0.0924502502204256, 0.08716272453538032, 0.0782945015348525, 0.06965903935713605,
0.06346159593226684, 0.054527131148532824, 0.05346303562884964, 0.04348400728546128,
0.042304834600062985, 0.03229641081461124, 0.031532033468325706, 0.0266801529298156,
0.020332085835946957, 0.01825531821510237, 0.01483790669963606, 0.0068195084468626625
Pour les données distribuées normales, les résultats semblent être très similaires, au moins lors de leur redimensionnement à une somme totale de (la distribution a clairement une variance plus élevée en premier lieu).
Je me demande s'il y a un résultat qui prédit ce comportement? Je cherche un test si la série de valeurs propres est quelque peu régulière, et combien de valeurs propres sont conformes aux attentes et lesquelles diffèrent considérablement des valeurs attendues.
Pour un (petit) échantillon donné , y a-t-il un résultat si un coefficient de corrélation pour deux variables est significatif? Même les variables iid auront parfois un résultat différent de 0 pour un faible .