Dans Elements of Statistical Learning , un problème est introduit pour mettre en évidence les problèmes de k-nn dans les espaces de grande dimension. Il y a points de données qui sont uniformément distribués dans une boule d'unité dimensionnelle.
La distance médiane de l'origine au point de données le plus proche est donnée par l'expression:
Lorsque , les pauses de formule vers le bas à la moitié du rayon de la balle, et je peux voir comment le point le plus proche se rapproche de la frontière comme p → ∞ , rendant ainsi l'intuition derrière KNN briser les dimensions élevées. Mais je ne comprends pas pourquoi la formule dépend de N. Pourriez-vous clarifier quelque chose?
Le livre aborde également ce problème en déclarant: "... la prédiction est beaucoup plus difficile près des bords de l'échantillon d'apprentissage. Il faut extrapoler à partir des points d'échantillonnage voisins plutôt qu'interpoler entre eux". Cela semble être une déclaration profonde, mais je n'arrive pas à comprendre ce que cela signifie. Quelqu'un pourrait-il reformuler?