Ceci est cité très souvent en mentionnant la malédiction de la dimensionnalité et va
(formule de droite appelée contraste relatif)
Le résultat du théorème montre que la différence entre les distances maximale et minimale à un point d'interrogation donné n'augmente pas aussi vite que la distance la plus proche de n'importe quel point dans un espace dimensionnel élevé. Cela rend une requête de proximité vide de sens et instable car il y a une mauvaise discrimination entre le voisin le plus proche et le plus éloigné.
Pourtant, si l'on essaie réellement de calculer le contraste relatif pour les valeurs d'échantillon, cela signifie que l'on prend un vecteur contenant de très petites valeurs et calcule la distance au vecteur zéro et fait de même pour un vecteur contenant des valeurs beaucoup plus grandes, et on compare ensuite les valeurs pour une dimension de 3 et une dimension fois plus grande, on verra que, bien que le rapport diminue, le changement est si petit qu'il est sans pertinence pour le nombre de dimensions réellement utilisées dans la pratique (ou quelqu'un connaît-il quelqu'un qui travaille avec des données avec des dimensions la taille du nombre de Graham - qui, je suppose, est la taille nécessaire pour que l'effet décrit le document soit réellement pertinent - je ne pense pas).
Comme mentionné précédemment, ce théorème est très souvent cité pour soutenir l'affirmation selon laquelle la mesure de la proximité basée sur l'espace euclidien est une mauvaise stratégie dans un espace de grande dimension, les auteurs le disent eux-mêmes, et pourtant le comportement proposé n'a pas réellement lieu, ce qui me rend pense que ce théorème a été utilisé de manière trompeuse.
Exemple: avec d
la dimension
a=np.ones((d,)) / 1e5
b=np.ones((d,)) * 1e5
dmin,dmax=norm(a), norm(b)
(dmax-dmin)/dmin
pour d = 3
9999999999.0
pour d = 1e8
9999999998.9996738
Et avec 1e1 au lieu de 1e5 (disons que les données sont normalisées)
pour d = 3
99.0
pour d = 1e8
98.999999999989527