J'ai un groupe de n ensembles pour lesquels je dois calculer une sorte de valeur "d'unicité" ou de "similitude". J'ai choisi l'indice Jaccard comme une mesure appropriée. Malheureusement, l'indice Jaccard ne fonctionne que sur deux ensembles à la fois. Afin de calculer la similitude entre tous les ensembles, il faudra dans l'ordre des n 2 calculs Jaccard.
(Si cela aide, est généralement compris entre 10 et 10000, et chaque ensemble contient en moyenne 500 éléments. De plus, au final, je me fiche de la similitude de deux ensembles spécifiques - je me soucie seulement de la similitude interne (c'est-à-dire la moyenne (ou au moins une approximation suffisamment précise de la moyenne) de tous les indices Jaccard du groupe))
Deux questions:
- Existe-t-il un moyen d'utiliser toujours l'index Jaccard sans la complexité ?
- Existe-t-il une meilleure façon de calculer la similitude / l'unicité des ensembles à travers un groupe d'ensembles que la manière que j'ai suggérée ci-dessus?