"A" est lié à "B" et "C". Comment puis-je montrer que "B" et "C" pourraient, dans ce contexte, être également liés?
Exemple:
Voici quelques titres sur une récente pièce de Broadway:
- Glengarry Glen Ross de David Mamet, avec Al Pacino, ouvre à Broadway
- Al Pacino dans 'Glengarry Glen Ross': Qu'en ont pensé les critiques?
- Al Pacino gagne des critiques ternes pour le virage de Broadway
- Revue de théâtre: Glengarry Glen Ross vend ses étoiles dur
- Glengarry Glen Ross; Hé, qui a tué les lumières de Klieg?
Problème:
L'exécution d'une correspondance de chaîne floue sur ces enregistrements établira certaines relations, mais pas d'autres, même si un lecteur humain pourrait les extraire du contexte dans des ensembles de données beaucoup plus vastes.
Comment puis-je trouver la relation qui suggère que le n ° 3 est lié au n ° 4? Les deux peuvent être facilement connectés au n ° 1, mais pas l'un à l'autre.
Existe-t-il un nom (googlable) pour ce type de données ou de structure? Quel type d'algorithme est-ce que je recherche?
Objectif:
Compte tenu de 1 000 titres, un système qui suggère automatiquement que ces 5 articles sont probablement tous à peu près la même chose.
Pour être honnête, cela fait si longtemps que je n'ai pas programmé comment articuler correctement ce problème. (Je ne sais pas ce que je ne sais pas, si cela a du sens).
Il s'agit d'un projet personnel et je l'écris en Python. Merci d'avance pour toute aide, conseil et pointeurs!