Des outils pour automatiser l'OCR des fichiers PDF numérisés d'une manière similaire à la fonction OCR d'Acrobat? [fermé]

Open source préféré, mais pas nécessaire.

J'ai Adobe Acrobat 8 et j'aime vraiment la fonction OCR qui peut essentiellement mettre une couche invisible de texte OCR au-dessus d'un document numérisé. Ainsi, ce que vous voyez à l'écran est le document numérisé d'origine, mais le résultat est consultable.

Ce que je recherche, c'est un moyen d'automatiser ce processus. J'ai actuellement quelques scripts que nous utilisons pour le traitement et l'archivage des fichiers numérisés, et je cherche quelque chose que je peux connecter directement à ce processus par lots pour faire de l'OCR d'une manière similaire à ce que je peux faire avec Acrobat.

Toutes les suggestions sont les bienvenues, merci!

pdf document-management ocr

— Boden
source

PS - J'essaie de garder les questions de l'utilisateur sur le superutilisateur. Cependant, l'implémentation qui résulte de cette question vivra certainement sur le serveur sur lequel j'ai traité la documentation numérisée ... c'était donc un problème.

— Boden

Réponses:

Je l'ai implémenté dans un projet d'archivage de documents d'entreprise. Le fichier numérisé est un fichier tif (une seule page). Puis en utilisant Cuneiform pour créer un fichier hocr du tif unique. Puis en utilisant hocr2pdf pour sortir le fichier PDF. Si plusieurs pages numérisées, j'utilise gs pour combiner les PDF en un seul document PDF. Fonctionne très bien, l'OCR est assez bon pour nos besoins et peut être recherché dans n'importe quel visualiseur PDF.

— xeon
source

Intéressant. Avant de passer trop de temps à le regarder, le PDF résultant est-il l'image de la numérisation d'origine avec un calque de texte incorporé, ou s'agit-il uniquement de texte?

— Boden

C'est l'image de la numérisation originale avec une couche de texte intégrée. Le fichier hocr est une sortie texte avec des balises html.

— xeon

Excellent. Je vais essayer. Si cela semble fonctionner, je marquerai votre réponse comme acceptée. Merci!

— Boden

Merci encore. Un peu pénible pour installer ces deux gars, mais ça marche. J'ai écrit un script simple pour vérifier un dossier FTP pour les nouveaux fichiers .tif sur lesquels il exécute cuneiform et hocr2pdf, puis télécharge les résultats dans une bibliothèque de documents sharpoint en utilisant curl. Ainsi, les gens peuvent archiver des documents directement à partir de la photocopieuse et les archives sont entièrement consultables par texte. Question: savez-vous ce que fait l'option "écraser la résolution" dans hocr2pdf?

— Boden

Je suis content que ça marche pour vous. Je ne sais pas si l'argument -r le fait.

— xeon

Avez-vous regardé WatchOCR? Vous pouvez le télécharger sur http://www.watchocr.com Il s'agit d'un serveur OCR gratuit et open source qui transforme les fichiers PDF image uniquement en fichiers PDF consultables à partir d'un dossier surveillé ou d'un partage réseau.

— rlangner
source

J'aime les sons de la réponse de xeon, bien qu'OCRopus semble très amusant.

— Kara Marfia
source

Quand je recherchais et testais différentes solutions. J'ai essayé cela et tesseract-ocr et ils n'avaient pas un bon moyen de sortie au format PDF à l'époque. Je n'ai pas vérifié s'ils avaient ces fonctionnalités ... Je sais que tesseract-ocr l'a dans leur chronologie ...

— xeon