La similitude de Jaccard est donnée par
sij=pp+q+r
où,
p = # d'attributs positifs pour les deux objets
q = # d'attributs 1 pour i et 0 pour j
r = # d'attributs 0 pour i et 1 pour j
A⋅B∥A∥∥B∥
Autrement dit, en similitude cosinus, le nombre d'attributs communs est divisé par le nombre total d'attributs possibles. Alors que dans la similitude Jaccard, le nombre d'attributs communs est divisé par le nombre d'attributs qui existent dans au moins l'un des deux objets.
Et il existe de nombreuses autres mesures de similitude, chacune avec ses propres excentricités. Lorsque vous décidez lequel utiliser, essayez de penser à quelques cas représentatifs et déterminez quel indice donnerait les résultats les plus utilisables pour atteindre votre objectif.
L'indice de cosinus pourrait être utilisé pour identifier le plagiat, mais ne sera pas un bon indice pour identifier les sites miroirs sur Internet. Alors que l'indice Jaccard, sera un bon indice pour identifier les sites miroirs, mais pas si bon pour attraper le plagiat des pâtes de copie (dans un document plus grand).
Lors de l'application de ces indices, vous devez bien réfléchir à votre problème et trouver comment définir la similitude. Une fois que vous avez une définition en tête, vous pouvez acheter un index.
Edit:
Plus tôt, j'avais un exemple inclus dans cette réponse, qui était finalement incorrect. Merci aux nombreux utilisateurs qui l'ont souligné, j'ai supprimé l'exemple erroné.