Il existe de nombreux fichiers texte qui ont été codés dans des jeux de caractères variantes.
Je veux tous les convertir en UTF-8, mais avant d'exécuter iconv, j'ai besoin de connaître son encodage d'origine. La plupart des navigateurs ont une Auto Detect
option dans les encodages, cependant, je ne peux pas vérifier ces fichiers texte un par un car ils sont trop nombreux.
N'ayant connu que l'encodage d'origine, je peux alors convertir les textes par iconv -f DETECTED_CHARSET -t utf-8
.
Existe-t-il un utilitaire permettant de détecter le codage de fichiers en texte brut? Il NE DOIT PAS être parfait à 100%, cela ne me dérange pas qu'il y ait 100 fichiers mal convertis en 1 000 000 de fichiers.
python-chardet
dans le repo de l'univers Ubuntu.