Définir la similitude - Calculer l'indice Jaccard sans complexité quadratique


14

J'ai un groupe de n ensembles pour lesquels je dois calculer une sorte de valeur "d'unicité" ou de "similitude". J'ai choisi l'indice Jaccard comme une mesure appropriée. Malheureusement, l'indice Jaccard ne fonctionne que sur deux ensembles à la fois. Afin de calculer la similitude entre tous les ensembles, il faudra dans l'ordre des n 2 calculs Jaccard.nn2

(Si cela aide, est généralement compris entre 10 et 10000, et chaque ensemble contient en moyenne 500 éléments. De plus, au final, je me fiche de la similitude de deux ensembles spécifiques - je me soucie seulement de la similitude interne (c'est-à-dire la moyenne (ou au moins une approximation suffisamment précise de la moyenne) de tous les indices Jaccard du groupe))n

Deux questions:

  1. Existe-t-il un moyen d'utiliser toujours l'index Jaccard sans la complexité ?n2
  2. Existe-t-il une meilleure façon de calculer la similitude / l'unicité des ensembles à travers un groupe d'ensembles que la manière que j'ai suggérée ci-dessus?

Pourriez-vous d'abord préciser ce que vous entendez par «similitude interne»?
Suresh

En d'autres termes, la moyenne (ou au moins une approximation suffisamment précise de la moyenne) de tous les indices Jaccard du groupe.

5
Si vous souhaitez approximer la réponse, vous pouvez utiliser le hachage min-sage pour estimer la distance Jaccard approximativement, puis utiliser la représentation résultante pour calculer la moyenne souhaitée.
Suresh

6
Je ne sais pas ce que vous entendez par «suffisamment précis», mais une façon d'estimer la moyenne de beaucoup de choses est simplement d'en calculer plusieurs (les indices Jaccard de plusieurs paires d'ensembles dans ce cas) au hasard et de calculer leur moyenne. Ensuite, vous pouvez utiliser la borne de Chernoff pour obtenir une borne supérieure sur la probabilité que cette estimation soit loin de la vraie moyenne.
Tsuyoshi Ito

Réponses:


4

Une option serait d'utiliser le schéma de signature de [1], le filtrage basé sur la taille : un schéma qui utilise les informations de taille pour réduire le nombre de paires d'ensemble qui doivent être prises en compte.

Ils expérimentent également une forme pondérée; où les poids sont basés sur IDF.

[1] Arasu, Arvind, Venkatesh Ganti et Raghav Kaushik. «Efficient Exact Set-similarity Joins». Dans les actes de la 32e Conférence internationale sur les très grandes bases de données, 918–929. VLDB '06. Dotation VLDB, 2006


Ce lien semble être mort. Pensez à le mettre à jour sur vldb.org/conf/2006/p918-arasu.pdf .
j_random_hacker

0

Une autre option serait d'utiliser un lien wiki de hachage de sensibilité local . Je l'ai vu utilisé dans la détection de similitudes communautaires par Wu et Zou ( une méthode de détection communautaire incrémentielle pour les systèmes de marquage social utilisant un hachage sensible à la localité , Neural Networks 58: 14-28; ACM DL ) qui détecte essentiellement la similitude entre des nombres entiers ou jeux de chaînes.


1
Veuillez résumer le contenu des liens et citer l'article. Si les liens deviennent périmés, la réponse actuelle devient inutile.
vonbrand
En utilisant notre site, vous reconnaissez avoir lu et compris notre politique liée aux cookies et notre politique de confidentialité.
Licensed under cc by-sa 3.0 with attribution required.