Je fais une tâche de classification de texte avec R, et j'obtiens une matrice de termes de document avec la taille 22490 par 120 000 (seulement 4 millions d'entrées non nulles, moins de 1% d'entrées). Maintenant, je veux réduire la dimensionnalité en utilisant PCA (analyse en composantes principales). Malheureusement, R ne peut pas gérer cette énorme matrice, donc je stocke cette matrice clairsemée dans un fichier au "Matrix Market Format", en espérant utiliser d'autres techniques pour faire de l'ACP.
Alors, quelqu'un pourrait-il me donner quelques conseils pour des bibliothèques utiles (quel que soit le langage de programmation), qui pourraient facilement faire PCA avec cette matrice à grande échelle, ou faire moi-même une PCA à long terme, en d'autres termes, calculer la matrice de covariance dans un premier temps, et puis calculez les valeurs propres et les vecteurs propres pour la matrice de covariance .
Ce que je veux, c'est calculer tous les PC (120 000), et choisir uniquement les N meilleurs PC, qui représentent une variance de 90% . Évidemment, dans ce cas, je dois donner un seuil a priori pour définir des valeurs de variance très minimes à 0 (dans la matrice de covariance), sinon, la matrice de covariance ne sera pas clairsemée et sa taille serait de 120 000 par 120 000, ce qui est impossible à manipuler avec une seule machine. De plus, les chargements (vecteurs propres) seront extrêmement importants et devraient être stockés dans un format épars.
Merci beaucoup pour toute aide !
Remarque: J'utilise une machine avec 24 Go de RAM et 8 cœurs de processeur.