Faisons matrice carrée symétrique des carrés des distances euclidiennes entre points et vecteur lengthed indiquant cluster ou appartenance à un groupe ( clusters) des points; un cluster peut consister en un point .
Quel est le moyen le plus efficace ou vraiment efficace (en termes de vitesse) pour calculer les distances entre les centroïdes de cluster ici?
Jusqu'à présent, j'ai toujours fait une analyse des coordonnées principales dans cette situation. PCoA, ou MDS de Torgerson revient à convertir d'abord en la matrice de produits scalaires ("double centrage") puis à effectuer PCA de celui-ci. De cette façon, nous créons des coordonnées pour les points dans l'espace euclidien qu'ils couvrent. Après cela, il est facile de calculer les distances entre les centroïdes de la manière habituelle - comme vous le feriez avec des données. PCoA doit faire la décomposition propre ou SVD du semi-fini positif symétrique , maisgrouped points x variables
n x n
peut être assez gros. De plus, la tâche n'est pas une réduction de dimensionnalité et nous n'avons pas réellement besoin de ces axes principaux orthogonaux. J'ai donc le sentiment que ces décompositions pourraient être une exagération.
Alors, avez-vous des connaissances ou des idées sur un moyen potentiellement plus rapide?