Choisir la bonne distance n'est pas une tâche élémentaire. Lorsque nous voulons effectuer une analyse de cluster sur un ensemble de données, différents résultats peuvent apparaître en utilisant différentes distances, il est donc très important de faire attention à la distance à choisir car nous pouvons créer un faux bon artefact qui capture bien la variabilité, mais en fait sans sens dans notre problème.
La distance euclidienne est appropriée lorsque j'ai des variables numériques continues et que je veux refléter des distances absolues. Cette distance prend en compte chaque variable et ne supprime pas les redondances, donc si j'avais trois variables qui expliquent la même chose (sont corrélées), je pondérerais cet effet par trois. De plus, cette distance n'est pas invariante à l'échelle, donc en général je dois l'échelle au préalable pour utiliser la distance.
Exemple d'écologie: Nous avons des observations différentes de nombreuses localités, dont les experts ont prélevé des échantillons de certains facteurs microbiologiques, physiques et chimiques. Nous voulons trouver des modèles dans les écosystèmes. Ces facteurs ont une forte corrélation, mais nous savons que tout le monde est pertinent, nous ne voulons donc pas supprimer ces redondances. Nous utilisons la distance euclidienne avec des données mises à l'échelle pour éviter l'effet des unités.
La distance de Mahalanobis est appropriée lorsque j'ai des variables numériques continues et que je veux refléter des distances absolues, mais nous voulons supprimer les redondances. Si nous avons des variables répétées, leur effet répétitif disparaîtra.
La famille Hellinger , Species Profile et Chord distance sont appropriées lorsque nous voulons mettre l'accent sur les différences entre les variables, lorsque nous voulons différencier les profils. Ces distances sont pondérées par les quantités totales de chaque observation, de telle sorte que les distances sont petites lorsque variables par variables les individus sont plus similaires, bien qu'en magnitudes absolues, ils soient très différents. Fais attention! Ces distances reflètent très bien la différence entre les profils, mais ont perdu l'effet d'amplitude. Ils pourraient être très utiles lorsque nous avons des tailles d'échantillon différentes.
Exemple d'écologie: Nous voulons étudier la faune de nombreuses terres et nous avons une matrice de données d'un inventaire du gastéropode (lieux d'échantillonnage en rangées et noms des espèces en colonnes). La matrice est caractérisée par de nombreux zéros et des amplitudes différentes parce que certaines localités ont certaines espèces et d'autres ont d'autres espèces. Nous pourrions utiliser la distance Hellinger.
Bray-Curtis est assez similaire, mais il est plus approprié lorsque nous voulons différencier les profils et également prendre en compte les grandeurs relatives.