Je cherche à regrouper k-means sur un ensemble de points à 10 dimensions. Le hic: il y a 10 ^ 10 points .
Je recherche juste le centre et la taille des plus grands clusters (disons 10 à 100 clusters); Je me fiche du cluster dans lequel se trouve chaque point. L'utilisation de k-means en particulier n'est pas importante; Je cherche juste un effet similaire, tout k-means approximatif ou algorithme associé serait génial (minibatch-SGD signifie, ...). Puisque GMM est en quelque sorte le même problème que k-means, faire GMM sur les mêmes données de taille est également intéressant.
À cette échelle, le sous-échantillonnage des données ne modifie probablement pas le résultat de manière significative: les chances de trouver les mêmes 10 principaux clusters à l'aide d'un échantillon au 1/10000e des données sont très bonnes. Mais même dans ce cas, c'est un problème de 10 ^ 6 points qui se situe au-delà du bord du tractable.