J'ai des milliers de listes de chaînes et chaque liste contient environ 10 chaînes. La plupart des chaînes d'une liste donnée sont très similaires, bien que certaines chaînes soient (rarement) complètement sans rapport avec les autres et que certaines chaînes contiennent des mots non pertinents. Ils peuvent être considérés comme des variations bruyantes d'une chaîne canonique. Je recherche un algorithme ou une bibliothèque qui convertira chaque liste en cette chaîne canonique.
Voici une telle liste.
- Star Wars: Episode IV Un nouvel espoir | StarWars.com
- Star Wars Episode IV - Un nouvel espoir (1977)
- Star Wars: Episode IV - Un nouvel espoir - Tomates pourries
- Regarder Star Wars: Episode IV - Un nouvel espoir en ligne gratuit
- Star Wars (1977) - Les plus grands films
- [REC] 4 affiches promettent la mort d'un moteur hors-bord - SciFiNow
Pour cette liste, toute chaîne correspondant à l'expression régulière ^Star Wars:? Episode IV (- )?A New Hope$
serait acceptable.
J'ai regardé le cours d'Andrew Ng sur l'apprentissage automatique sur Coursera, mais je n'ai pas pu trouver un problème similaire.