J'ai une charge de documents, qui ont une charge de paires de valeurs clés en eux. La clé peut ne pas être unique, il peut donc y avoir plusieurs clés du même type avec des valeurs différentes.
Je veux comparer la similitude des clés entre 2 documents. Plus précisément la similitude des chaînes de ces valeurs. Je pense utiliser quelque chose comme l' algorithme Smith-Waterman pour comparer la similitude.
J'ai donc dessiné une image de la façon dont je pense à représenter les données -
Les valeurs dans les cellules sont le résultat de l'algorithme smith-waterman (ou d'une autre métrique de similitude de chaîne).
Image que cette matrice représente un type clé de "choses" J'ai ensuite besoin d'ajouter le score de similitude "choses" dans un vecteur de 0 ou 1. C'est correct.
Ce que je ne peux pas comprendre, c'est comment déterminer si la matrice est similaire ou non similaire - idéalement, je veux convertir la matrice en un nombre compris entre 0 et 1, puis je vais simplement définir un seuil pour le marquer comme 0 ou 1.
Des idées sur la façon dont je peux créer une partition de la matrice? Quelqu'un connaît-il des algorithmes qui font ce genre de chose (évidemment, des choses comme le fonctionnement de Smith Waterman sont applicables).