En tant que fan de l'open source (et de l'automatisation), je n'aime pas le dire, mais les meilleurs résultats que je viens d'obtenir (sur un fichier PDF assez volumineux et complexe) étaient de l'ouvrir dans Adobe Reader, puis de choisir Fichier | Enregistrer en tant que texte.
(Je suis un prétraitement pour des expériences d'analyse de texte, pas en tant que lecteur, mais je pense que mes premier et deuxième choix seraient les mêmes.)
J'ai comparé la sortie côte à côte. Mon deuxième choix est ebook-convert.
Adobe : à gauche dans FF pour les sauts de page, à gauche dans les numéros de page, n'a pas converti les en-têtes / paragraphes en lignes simples, mais a des traits d'union. Un courrier indésirable caché dans le PDF n'a pas été généré. Les grandes capitales sont correctement placées au début des sections, par exemple "Le", pas "L" ou même "L".
ebook-convert : à gauche dans les numéros de page, et quelques jonques cachées dans l'en-tête / le pied de page (mais pas de FF). Convertit la plupart des paragraphes en lignes simples. Ceux qu'il a manqués sont à double interligne! Les balles ne s'alignent pas toujours avec le texte. Correctement obtenu "Le" au début du chapitre.
pdftotext (sans --layout) : Pas mal, les puces s'alignent, mais le bruit d'en-tête / pied de page. Les FF sont là. Les traits d'union supprimés. Pire pour les grosses lettres du début du chapitre: "T \ n \ nhe".
pdftotext (with --layout) : similaire, mais plus indenté. "Il" pour le début du chapitre.
pdftohtml >> pdfreflow >> htmltotext : Il supprimait les numéros de page, mais restait indésirable dans l'en-tête / le pied de page. "Il" pour le début du chapitre. Les traits d'union supprimés. (Il utilise plusieurs lignes par paragraphe, mais ce ne sont pas les mêmes sauts de ligne que dans les autres versions!)