7
La distance euclidienne n'est généralement pas bonne pour les données rares?
J'ai vu quelque part que les distances classiques (comme la distance euclidienne) deviennent faiblement discriminantes lorsque nous disposons de données multidimensionnelles et rares. Pourquoi? Avez-vous un exemple de deux vecteurs de données clairsemés où la distance euclidienne ne fonctionne pas bien? Dans ce cas, quelle similarité devrions-nous utiliser?