L'idée principale de k-voisin le plus proche prend en compte les points les plus proches et décide de la classification des données par vote majoritaire. Si tel est le cas, il ne devrait pas avoir de problèmes dans les données de dimension supérieure, car des méthodes telles que le hachage sensible à la localité peuvent trouver efficacement les voisins les plus proches.
De plus, la sélection des fonctionnalités avec les réseaux bayésiens peut réduire la dimension des données et faciliter l'apprentissage.
Cependant, cet article de revue de John Lafferty dans l'apprentissage statistique souligne que l'apprentissage non paramétrique dans des espaces d'entités de haute dimension est toujours un défi et non résolu.
Qu'est-ce qui ne va pas?