J'ai un fichier en UTF-8 qui contient des textes en plusieurs langues. Beaucoup sont des noms de personnes. J'ai besoin de le convertir en ASCII et j'ai besoin que le résultat soit aussi décent que possible.
Il existe de nombreuses façons d'aborder la conversion d'un encodage plus large en un encodage plus étroit. La transformation la plus simple serait de remplacer tous les caractères non ASCII par un espace réservé, comme «_». Si je connais la langue dans laquelle le fichier est écrit, il existe des possibilités supplémentaires, comme la romanisation.
Quel outil Unix ou bibliothèque de langage de programmation disponible sur Unix peut me donner une conversion décente (au mieux) de UTF-8 en ASCII?
La plupart du texte est en langues européennes de type latin.
iconv
et tr
, il existe Unidecode . Je ne le connais pas, mais il pourrait faire ce que vous voulez, si vous pouvez utiliser Python.