En 1999, Beyer et al. a demandé: Quand le "plus proche voisin" a-t-il un sens?
Existe-t-il de meilleures façons d'analyser et de visualiser l'effet de la planéité des distances sur la recherche NN depuis 1999?
Un ensemble de données [donné] fournit-il des réponses significatives au problème 1-NN? Le problème des 10 NN? Le problème du 100-NN?
Comment les experts aborderaient-ils cette question aujourd'hui?
Modifications lundi 24 janvier:
Que diriez-vous de "distance blanche" comme un nom plus court pour "planéité de distance avec une dimension croissante"?
Un moyen simple de voir le "voile blanc de distance" consiste à exécuter 2-NN et à tracer les distances entre le voisin le plus proche et le deuxième voisin le plus proche. Le graphique ci-dessous montre dist 1 et dist 2 pour une gamme de nclusters et de dimensions, par Monte Carlo. Cet exemple montre un assez bon contraste de distance pour la différence absolue mise à l'échelle | dist 2 - dist 1 |. (Les différences relatives | dist 2 / dist 1 | → 1 comme dimension → ∞, deviennent donc inutiles.)
L'emploi d'erreurs absolues ou relatives dans un contexte donné dépend bien entendu du "vrai" bruit présent: difficile.
Suggestion: exécutez toujours 2-NN; 2 voisins sont utiles lorsqu'ils sont proches et utiles lorsqu'ils ne le sont pas.