Pour autant que je sache, la «moyenne» d'un cluster et le centroïde d'un cluster unique sont la même chose, bien que le terme «centroïde» soit un peu plus précis que «moyenne» lorsqu'il s'agit de données multivariées.
Pour trouver le centroïde, on calcule la moyenne (arithmétique) des positions des points séparément pour chaque dimension. Par exemple, si vous aviez des points sur:
- (-1, 10, 3),
- (0, 5, 2), et
- (1, 20, 10),
alors le centroïde serait situé à ((-1 + 0 + 1) / 3, (10 + 5 + 20) / 3, (3 + 2 + 10) / 3), ce qui simplifie (0, 11 2/3, 5). (NB: le centroïde ne doit pas être - et est rarement --- l'un des points de données d'origine)
Le centroïde est aussi parfois appelé centre de masse ou barycentre, en fonction de son interprétation physique (c'est le centre de masse d'un objet défini par les points). Comme la moyenne, l'emplacement du centroïde minimise la distance au carré des autres points.
Une idée connexe est le médoïde , qui est le point de données qui est "le moins différent" de tous les autres points de données. Contrairement au centroïde, le médoïde doit être l'un des points d'origine. Vous pouvez également être intéressé par la médiane géométrique qui est analogue à la médiane, mais pour les données multivariées. Ce sont tous deux différents du centroïde.
ABcentroid(A)centroid(B)aiAdist(ai,b1)dist(ai,b2)dist(ai,bn)