Une façon d'attribuer un poids à une variable consiste à modifier son échelle. L'astuce fonctionne pour les algorithmes de clustering que vous mentionnez, à savoir. k-moyennes, liaison moyenne pondérée et liaison moyenne.
Kaufman, Leonard et Peter J. Rousseeuw. " Trouver des groupes dans les données: une introduction à l'analyse de cluster ." (2005) - page 11:
Le choix des unités de mesure donne lieu à des poids relatifs des variables. L'expression d'une variable en unités plus petites entraînera une plus grande plage pour cette variable, ce qui aura alors un effet important sur la structure résultante. D'un autre côté, en standardisant, on essaie de donner à toutes les variables un poids égal, dans l'espoir d'atteindre l'objectivité. En tant que tel, il peut être utilisé par un praticien qui ne possède aucune connaissance préalable. Cependant, il se pourrait bien que certaines variables soient intrinsèquement plus importantes que d'autres dans une application particulière, et l'attribution des poids devrait alors être basée sur la connaissance du sujet (voir, par exemple, Abrahamowicz, 1985).
D'un autre côté, des tentatives ont été faites pour concevoir des techniques de regroupement indépendantes de l'échelle des variables (Friedman et Rubin, 1967). La proposition de Hardy et Rasson (1982) est de rechercher une cloison qui minimise le volume total des coques convexes des grappes. En principe, une telle méthode est invariante par rapport aux transformations linéaires des données, mais malheureusement aucun algorithme n'existe pour sa mise en œuvre (à l'exception d'une approximation limitée à deux dimensions). Par conséquent, le dilemme de la normalisation semble inévitable à l'heure actuelle et les programmes décrits dans ce livre laissent le choix à l'utilisateur
Abrahamowicz, M. (1985), The use of non-numerical a pnon information for measure dissimilarities, article présenté à la quatrième réunion européenne de la Psychometric Society and the Classification Societies, 2-5 juillet, Cambridge (UK).
Friedman, HP et Rubin, J. (1967), Sur certains critères invariants pour regrouper les données. J. Amer. Statist. ASSOC6., 2, 1159-1178.
Hardy, A. et Rasson, JP (1982), Une nouvelle approche des problèmes de classification automatique, Statist. Anal. Donnies, 7, 41-56.