Les fichiers Excel peuvent être convertis en CSV en utilisant:
$ libreoffice --convert-to csv --headless --outdir dir file.xlsx
Tout semble bien fonctionner. L'encodage, cependant, est réglé sur quelque chose de chancelant. Au lieu d'un mdash UTF-8 (-) que j'obtiens si je fais un "enregistrer sous" manuellement depuis LibreOffice Calc, cela me donne un \ 227 ( ). L'utilisation du fichier sur le CSV me donne "du texte ASCII étendu non ISO, avec de très longues lignes". Donc, deux questions:
- Que se passe-t-il ici?
- Comment dire à libreoffice de convertir en UTF-8?
Le fichier spécifique que j'essaie de convertir est ici .