J'ai une grande matrice (650K lignes * 62 colonnes) de données binaires (0-1 entrées uniquement). La matrice est généralement clairsemée: environ 8% est remplie.
Je voudrais le regrouper en 5 groupes - disons nommés de 1 à 5. J'ai essayé le regroupement hiérarchique et il n'a pas pu gérer la taille. J'ai également utilisé un algorithme de clustering k-means basé sur la distance de hamming, compte tenu des vecteurs de 650 K bits de longueur 62. Je n'ai obtenu de résultats appropriés avec aucun de ces éléments.
Veuillez aider.