Complexité de calcul k-NN

Quelle est la complexité temporelle de l' algorithme k -NN avec une approche de recherche naïve (pas d'arbre kd ou similaire)?

Je suis intéressé par sa complexité temporelle compte tenu également de l'hyperparamètre k . J'ai trouvé des réponses contradictoires:

O (nd + kn), où n est la cardinalité de l'ensemble d'apprentissage et d la dimension de chaque échantillon. [1]
O (ndk), où encore n est la cardinalité de l'ensemble d'apprentissage et d la dimension de chaque échantillon. [2]

[1] http://www.csd.uwo.ca/courses/CS9840a/Lecture2_knn.pdf (Pag. 18/20)

[2] http://www.cs.haifa.ac.il/~rita/ml_course/lectures/KNN.pdf (p. 18/31)

k-nearest-neighbour time-complexity

— Daniel López
source

En supposant que est fixe (comme le font les deux conférences liées), vos choix algorithmiques détermineront si votre calcul prend runtime ou runtime. $k$ $O(nd+kn)$ $O(ndk)$

Considérons d'abord un algorithme d'exécution : $O(nd+kn)$

Initialiser pour toutes les observations dans l'ensemble d'apprentissage $selected_i = 0$ $i$
Pour chaque ensemble d'entraînement, observation , calculer , la distance entre la nouvelle observation et l'observation d'ensemble d'apprentissage $i$ $dist_i$ $i$
Pour à : boucle à travers toutes les observations de l'ensemble d'apprentissage, en sélectionnant l'indice avec la plus petite valeur et pour lequel . Sélectionnez cette observation en définissant $j=1$ $k$ $i$ $dist_i$ $selected_i=0$ . $selected_i=1$
Renvoie les indices sélectionnés $k$

Chaque calcul de distance nécessite un runtime , donc la deuxième étape nécessite un runtime . Pour chaque itération de la troisième étape, nous effectuons un travail en parcourant les observations de l'ensemble d'apprentissage, de sorte que l'étape nécessite globalement un travail . Les première et quatrième étapes ne nécessitent qu'un travail , nous obtenons donc un runtime . $O(d)$ $O(nd)$ $O(n)$ $O(nk)$ $O(n)$ $O(nd+kn)$

Considérons maintenant un algorithme d'exécution : $O(ndk)$

Initialiser pour toutes les observations dans l'ensemble d'apprentissage $selected_i = 0$ $i$
Pour à : parcourez toutes les observations de l'ensemble d'apprentissage et calculez la distance entre l'observation de l'ensemble d'apprentissage sélectionné et la nouvelle observation. Sélectionnez l'indice avec la plus petite valeur pour laquelle . Sélectionnez cette observation en définissant . $j=1$ $k$ $d$ $i$ $d$ $selected_i=0$ $selected_i=1$
Renvoie les indices sélectionnés $k$

Pour chaque itération de la deuxième étape, nous calculons la distance entre la nouvelle observation et chaque observation d'ensemble d'apprentissage, nécessitant travail pour une itération et donc travail global. $O(nd)$ $O(ndk)$

La différence entre les deux algorithmes est que le premier précalcule et stocke les distances (nécessitant de mémoire supplémentaire), tandis que le second ne le fait pas. Cependant, étant donné que nous stockons déjà l'ensemble de la formation, nécessitant mémoire, ainsi que le vecteur , nécessitant $O(n)$ $O(nd)$ $selected$ stockage , le stockage des deux algorithmes est asymptotiquement le même. En conséquence, le meilleur temps d'exécution asymptotique pour rend le premier algorithme plus attrayant. $O(n)$ $k > 1$

Il est à noter qu'il est possible d'obtenir un runtime utilisant une amélioration algorithmique: $O(nd)$

Pour chaque observation d'ensemble d'entraînement , calculer , la distance entre la nouvelle observation et l'observation d'ensemble d'apprentissage $i$ $dist_i$ $i$
Exécutez l' algorithme de sélection rapide pour calculer la plus petite distance dans le temps d'exécution $k^{th}$ $O(n)$
Renvoie tous les indices non supérieurs à la plus petite distance calculée $k^{th}$

Cette approche tire parti du fait qu'il existe des approches efficaces pour trouver la plus petite valeur dans un tableau non trié. $k^{th}$

— josliber
source

Excellente réponse et j'aime particulièrement les conseils d'utilisation quickselect.

— usεr11852 dit Réintégrer Monic le

Une autre question: pour la troisième option, je crois que la complexité temporelle devrait être O (nd + k), car il vous reste à calculer l'étiquette la plus courante parmi les k voisins les plus proches pour émettre une prédiction, non?

— Daniel López

@Daniel Puisque

est identique à

k \leq n

$k \leq n$

O (n d + k)

$O(nd+k)$

O (n d)

$O(nd)$

— josliber

La dernière fois que je vous dérange: essayer de déterminer la complexité de calcul d'une version modifiée de k -NN sur laquelle je travaille, j'obtiens ce qui suit: O (nd + nd / p) Où par définition n , d et p sont des entiers supérieurs à zéro. Puis-je simplifier cela en O (nd) ?

— Daniel López

O (n d)

$O(nd)$