J'exporte du contenu MS Word en texte brut pour une utilisation avec les utilitaires de texte et de fichier. J'ai une contrainte où la fonction de numérotation des lignes a été activée dans le logiciel MS, et toute référence aux numéros de ligne dans la sortie finale doit correspondre à cette numérotation. Entrez donc "lignes de numérotation":
( Poe, EA )
Évidemment, pour Word , ce type de numérotation ne rompt pas les lignes à la nouvelle ligne , il casse les "lignes" après la marge de droite (ou quelque chose). Un script comme docx2txt
, ne tient pas compte de cela par défaut, semble-t-il et rompt les lignes à la nouvelle ligne. Donc, si j'utilise grep -n
avec la numérotation, les lignes ne correspondront pas à la fonction de numéros de ligne source, comme illustré ci-dessus. La documentation ne précise pas exactement comment je devrais modifier le script Perl pour convertir les fichiers comme je le dois dans ce cas:
our $config_newLine = "\n"; # Alternative is "\r\n".
our $config_lineWidth = 80; # Line width, used for short line justification.
J'ai essayé substituer \n
à , \r\n
mais cela ne semble pas fonctionner pour moi. J'ai donc eu recours à l'exportation des documents directement à partir de Word avec les paramètres suivants (enregistrer en texte brut , sur v.2013,64pc):
- Unicode (UTF-8)
- Insérer des sauts de ligne + lignes de fin avec (CR / LF)
- Autoriser la substitution de caractères
Et maintenant, en effet, lorsque j'utilise les .txt
fichiers, il y a une correspondance parfaite entre les numéros de ligne dans la fonction de numérotation source et la grep -n
sortie.
- Existe-t-il une configuration / un processus spécifique que je devrais connaître
docx2txt
ou un utilitaire de ligne de commande similaire qui m'aurait permis de convertir mes fichiers .docx en texte brut tout en préservant les sauts de ligne, sans recourir à Word comme je l'ai fait? - Quelles sont les meilleures pratiques , le cas échéant, pour exporter des documents MS Word (qui peuvent contenir des caractères accentués) en texte brut à utiliser avec les utilitaires de fichier / texte, en ce qui concerne les sauts de ligne et la mise en forme; et y a-t-il des implications négatives avec les paramètres que j'ai choisis pour l'exportation, c'est-à-dire l'insertion de CR / LF?
Échantillon
Comme suggéré, je fournis un échantillon. Dans cette archive rar , j'ai regroupé un fichier .docx avec des paragraphes simples et son fichier .txt exporté en utilisant Word avec les options susmentionnées. Ce dernier peut être comparé à une exécution par défaut de docx2txt
sur le fichier source.