Je suis tombé sur un scénario où j'ai 10 signaux / personne pour 10 personnes (donc 100 échantillons) contenant 14000 points de données (dimensions) que je dois transmettre à un classificateur. Je voudrais réduire la dimensionnalité de ces données et l'ACP semble être le moyen de le faire. Cependant, je n'ai pu trouver que des exemples de PCA où le nombre d'échantillons est supérieur au nombre de dimensions. J'utilise une application PCA qui trouve les PC utilisant SVD. Lorsque je lui passe mon jeu de données 100x14000, 101 PC sont retournés, de sorte que la grande majorité des dimensions sont évidemment ignorées. Le programme indique que les 6 premiers PC contiennent 90% de la variance.
Est-il raisonnable de supposer que ces 101 PC contiennent essentiellement toute la variance et que les dimensions restantes sont négligeables?
L'un des articles que j'ai lus affirme que, en utilisant un ensemble de données similaire (bien que de qualité légèrement inférieure) que le mien, ils ont pu réduire 4500 dimensions à 80 en conservant 96% des informations d'origine. Le papier fait des vagues sur les détails de la technique PCA utilisée, seulement 3100 échantillons étaient disponibles, et j'ai des raisons de croire que moins d'échantillons que ceux qui ont été utilisés pour effectuer réellement l'ACP (pour éliminer le biais de la phase de classification).
Suis-je en train de manquer quelque chose ou est-ce vraiment la façon dont l'ACP est utilisée avec un ensemble de données à haute dimensionnalité et faible taille d'échantillon? Tous commentaires serait grandement apprécié.