Supposons que nous avons un ensemble d'éléments E et une similitude ( non loin ) fonction SIM (ei, ej) entre deux éléments ei, ej ∈ E .
Comment pourrions-nous (efficacement) regrouper les éléments de E , en utilisant sim ?
k -moyen, par exemple, nécessite un k donné , Canopy Clustering nécessite deux valeurs de seuil. Et si nous ne voulons pas de tels paramètres prédéfinis?
Notez que sim n'est pas nécessairement une métrique (c'est-à-dire que l'inégalité du triangle peut ou peut ne pas tenir). De plus, peu importe si les clusters sont disjoints (partitions de E ).
1-sim(ei, ej) = Distance
. Avec la métrique de distance, vous pouvez par exemple appliquer un clustering hiérarchique. En descendant de la racine, vous verrez à quel niveau de grappes de granularité aurait un sens pour votre problème particulier.