Malédiction de dimensionnalité: classificateur kNN


11

Je lis le livre de Kevin Murphy: Machine Learning-A probabilistic Perspective. Dans le premier chapitre, l'auteur explique la malédiction de la dimensionnalité et il y a une partie que je ne comprends pas. À titre d'exemple, l'auteur déclare:

Considérez que les entrées sont uniformément réparties le long d'un cube unitaire en dimension D. Supposons que nous estimons la densité des étiquettes de classe en faisant croître un hyper cube autour de x jusqu'à ce qu'il contienne la fraction souhaitée des points de données. La longueur de bord attendue de ce cube est .Fe(F)=F1

C'est la dernière formule que je n'arrive pas à comprendre. il semble que si vous voulez couvrir disons 10% des points que la longueur du bord doit être de 0,1 le long de chaque dimension? Je sais que mon raisonnement est faux mais je ne comprends pas pourquoi.


6
Essayez d'abord de représenter la situation en deux dimensions. Si j'ai une feuille de papier de 1 m * 1 m et que je coupe un carré de 0,1 m * 0,1 m dans le coin inférieur gauche, je n'ai pas retiré un dixième du papier, mais seulement un centième .
David Zhang

Réponses:


13

Tel est précisément le comportement inattendu des distances en dimensions élevées. Pour 1 dimension, vous avez l'intervalle [0, 1]. 10% des points sont dans un segment de longueur 0,1. Mais que se passe-t-il lorsque la dimensionnalité de l'espace des fonctionnalités augmente?

Cette expression vous dit que si vous voulez avoir que 10% des points pour 5 dimensions, vous devez avoir une longueur pour le cube de 0,63, en 10 dimensions de 0,79 et 0,98 pour 100 dimensions.

Comme vous le voyez, pour augmenter les dimensions, vous devez regarder plus loin pour obtenir le même nombre de points. Plus encore, vous indique que la plupart des points sont à la limite du cube à mesure que le nombre de dimensions augmente. Ce qui est inattendu.


4

Je pense que la principale chose à noter est que l'expression

e(F)=F1

Pour rendre cela encore plus clair, rappelons l'intrigue que Murphy montre:

entrez la description de l'image ici

>1e(F)

e(F)=1F1-1=1F1-

>11-<0

e(F)=1(F1-)1

FX-1=1XF<1kN

F1-1


2

Oui, donc si vous avez un cube unitaire, ou dans votre cas une ligne unitaire, et que les données sont réparties uniformément, vous devez aller jusqu'à 0,1 pour capturer 10% des données. À mesure que vous augmentez les dimensions, D augmente, ce qui diminue la puissance et f étant inférieur à 1, augmentera, de sorte que si D va à l'infini, vous devez capturer tout le cube, e = 1.


0

Je pense que pour kNN, la distance joue un rôle plus important. Ce qui arrive à un (hyper) cube est analogue à ce qui arrive à la distance entre les points. À mesure que vous augmentez le nombre de dimensions, le rapport entre la distance la plus proche et la distance moyenne augmente - cela signifie que le point le plus proche est presque aussi éloigné que le point moyen, alors il n'a que légèrement plus de pouvoir prédictif que le point moyen. Cet article l'explique bien

Joel Grus décrit bien ce problème dans Data Science from Scratch. Dans ce livre, il calcule les distances moyennes et minimales entre deux points dans un espace de dimension à mesure que le nombre de dimensions augmente. Il a calculé 10 000 distances entre les points, avec le nombre de dimensions allant de 0 à 100. Il procède ensuite à tracer la distance moyenne et minimale entre deux points, ainsi que le rapport de la distance la plus proche à la distance moyenne (Distance_Closest / Distance_Average) .

Dans ces parcelles, Joel a montré que le rapport de la distance la plus proche à la distance moyenne est passé de 0 à 0 dimensions, à ~ 0,8 à 100 dimensions. Et cela montre le défi fondamental de la dimensionnalité lors de l'utilisation de l'algorithme k-plus proches voisins; à mesure que le nombre de dimensions augmente et que le rapport de la distance la plus proche à la distance moyenne s'approche de 1, la puissance prédictive de l'algorithme diminue. Si le point le plus proche est presque aussi éloigné que le point moyen, alors il n'a que légèrement plus de pouvoir prédictif que le point moyen.

En utilisant notre site, vous reconnaissez avoir lu et compris notre politique liée aux cookies et notre politique de confidentialité.
Licensed under cc by-sa 3.0 with attribution required.