J'essaie de chercher un bon argument sur la raison pour laquelle on utiliserait la distance de Manhattan sur la distance euclidienne dans le Machine Learning.
La chose la plus proche que j'ai trouvée pour un bon argument jusqu'à présent est sur cette conférence du MIT .
À 36h15, vous pouvez voir sur les diapositives la déclaration suivante:
"Utilisez généralement la métrique euclidienne; Manhattan peut être approprié si différentes dimensions ne sont pas comparables. "
Peu de temps après, le professeur dit que, parce que le nombre de pattes d'un reptile varie de 0 à 4 (alors que les autres caractéristiques sont binaires, ne varient que de 0 à 1), la fonction "nombre de pattes" finira par avoir un poids si la distance euclidienne est utilisée. Effectivement, c'est vrai. Mais on aurait aussi ce problème si on utilisait la distance de Manhattan (seulement que le problème serait légèrement atténué parce que nous n'équilibrons pas la différence comme nous le faisons sur la distance euclidienne).
Une meilleure façon de résoudre le problème ci-dessus serait de normaliser la fonction "nombre de segments" afin que sa valeur soit toujours comprise entre 0 et 1.
Par conséquent, comme il existe une meilleure façon de résoudre le problème, il semblait que l'argument de l'utilisation de la distance de Manhattan dans ce cas manquait d'un point plus fort, du moins à mon avis.
Est-ce que quelqu'un sait vraiment pourquoi et quand quelqu'un utiliserait la distance de Manhattan sur Euclidienne? Quelqu'un peut-il me donner un exemple dans lequel l'utilisation de la distance de Manhattan donnerait de meilleurs résultats?