Quelqu'un utilise-t-il les métriques ou pour le clustering, plutôt que ?
Aggarwal et al.,
A
propos du comportement surprenant des mesures de distance dans un espace de grande dimension, a déclaré (en 2001) que
est toujours plus préférable que la métrique de distance euclidienne pour les applications d'exploration de données à haute dimension
et a affirmé que ou peut être encore mieux.
Les raisons d'utiliser ou pourraient être théoriques ou expérimentales, par exemple la sensibilité aux valeurs aberrantes / articles de Kabán, ou des programmes exécutés sur des données réelles ou synthétiques (reproductibles s'il vous plaît). Un exemple ou une image aiderait l'intuition de mon profane.
Cette question fait suite à la réponse de Bob Durrant à Quand est le plus proche voisin significatif aujourd'hui . Comme il le dit, le choix de dépendra à la fois des données et de l'application; néanmoins, des rapports d'expérience réelle seraient utiles.
Notes ajoutées mardi 7 juin:
Je suis tombé sur "L'analyse des données statistiques basée sur la norme L1 et les méthodes associées", Dodge ed., 2002, 454p, isbn 3764369205 - des dizaines de documents de conférence.
Quelqu'un peut-il analyser la concentration de distance pour les caractéristiques exponentielles iid? Une des raisons des exponentielles est que ; un autre (non expert) est que c'est la distribution max-entropie ≥ 0; un troisième est que certains ensembles de données réels, en particulier les EIPD, semblent à peu près exponentiels.