Soit une fonction que nous appelons la fonction de similarité . Des exemples de fonctions de similitude sont la distance cosinus, la norme , la distance de Hamming, la similitude Jaccard, etc.
Considérons vecteurs binaires de longueur : .k → v ∈ ( { 0 , 1 } k ) n
Notre objectif est de regrouper des vecteurs similaires. Plus formellement, nous voulons calculer un graphe de similitude où les nœuds sont les vecteurs et les arêtes représentent des vecteurs qui sont similaires ( ).
k k O ( n 2 ) et sont de très grands nombres, et la comparaison de deux vecteurs de longueur coûte cher, nous ne pouvons pas faire toutes les opérations force brute . Nous voulons calculer le graphique de similitude avec beaucoup moins d'opérations.
Est-ce possible? Si ce n'est pas le cas, pouvons-nous calculer une approximation du graphique qui contient tous les bords du graphique de similitude plus éventuellement au plus autres bords?