Je dois gérer un fichier qui contient beaucoup de caractères de contrôle invisibles, comme "de droite à gauche" ou "non-joiner de largeur nulle", des espaces différents de l'espace normal et ainsi de suite, et j'ai des problèmes pour y faire face.
Maintenant, je voudrais en quelque sorte afficher toutes les lettres dans un fichier donné, lettre par lettre (je voudrais dire "de gauche à droite", mais je traite malheureusement de la langue de droite à gauche) , comme des points de code unicode, en utilisant uniquement outils de base (comme bash vi
, less
, cat
...). Est-ce possible d'une manière ou d'une autre?
Je sais que je peux afficher le fichier en hexadécimal par hexdump
, mais je devrais recalculer les points de code. Je veux vraiment voir les points de code Unicode réels, donc je peux les rechercher sur Google et découvrir ce qui se passe.
edit: J'ajouterai que je ne veux pas le transcoder en différents encodages (car c'est ce que je découvre en ligne). J'ai le fichier en UTF8 et c'est très bien. Je veux juste connaître les points de code exacts de toutes les lettres.