En Unicode, certaines combinaisons de caractères ont plus d'une représentation.
Par exemple, le caractère ä peut être représenté par
- "ä", c'est-à-dire le point de code U + 00E4 (deux octets
c3 a4
dans le codage UTF-8), ou - "ä", c'est-à-dire les deux points de code U + 0061 U + 0308 (trois octets
61 cc 88
en UTF-8).
Selon la norme Unicode, les deux représentations sont équivalentes mais dans des "formes de normalisation" différentes, voir UAX # 15: Formes de normalisation Unicode .
La boîte à outils Unix contient toutes sortes d'outils de transformation de texte, sed , tr , iconv , Perl me viennent à l'esprit. Comment puis-je effectuer une conversion NF simple et rapide sur la ligne de commande?
perl -MUnicode::Normalization -e 'print NFC(
... euh ce qui vient ici maintenant