Depuis aujourd'hui, je le sais: la meilleure chose pour l'extraction de texte à partir de PDF est TET, la boîte à outils d'extraction de texte . TET fait partie de la famille de produits PDFlib.com.
PDFlib.com est la société de Thomas Merz. Au cas où vous ne reconnaissez pas son nom: Thomas Merz est l'auteur de la "Bible PostScript et PDF".
La première incarnation de TET est une bibliothèque . Celui-ci peut probablement faire tout ce que Budda006 voulait, y compris des informations de position sur chaque élément de la page. Oh, et il peut également extraire des images. Il recombine des images qui sont fragmentées en morceaux.
pdflib.com propose également une autre incarnation de cette technologie, le plugin TET pour Acrobat . Et la troisième incarnation est le PDFlib TET iFilter . Il s'agit d'un outil autonome pour les postes de travail des utilisateurs. Les deux sont gratuits (comme dans la bière) à des fins privées et non commerciales.
Et c'est vraiment puissant. Bien mieux que l'extraction de texte d'Adobe. Il a extrait du texte pour moi là où d'autres outils (y compris Adobe) ne crachent que des ordures.
Je viens de tester l'outil autonome de bureau, et ce qu'ils disent sur leur page Web est vrai. Il a une très bonne ligne de commande. Certains de mes fichiers de test PDF "problématiques" ont été traités avec mon entière satisfaction.
Cette chose sera désormais ma recommandation pour toutes les exigences d'extraction de texte PDF sophistiquées et difficiles.
TET est tout simplement génial. Il détecte les tables. À l'intérieur des tableaux, il identifie les cellules couvrant plusieurs colonnes. Il identifie les lignes du tableau et le contenu de chaque cellule du tableau séparément. Il gère très bien les césures: il supprime les tirets et restaure les mots complets. Il prend en charge les langues non ASCII (y compris CJK, l'arabe et l'hébreu). Lors de la rencontre de ligatures, il restaure les caractères d'origine ...
Essaie.