J'ai un PDF d'un livre numérisé.
Je suis à la recherche d'un logiciel gratuit qui effectuera l'OCR, puis fournira une option pour l'enregistrer au format PDF ou document à nouveau.
Est-ce qu'il y a un?
J'ai un PDF d'un livre numérisé.
Je suis à la recherche d'un logiciel gratuit qui effectuera l'OCR, puis fournira une option pour l'enregistrer au format PDF ou document à nouveau.
Est-ce qu'il y a un?
Réponses:
Vous pouvez télécharger la version d'essai de 30 jours d' Adobe Acrobat Pro et utiliser la fonction 'OCR Text Recognition' ('Document> OCR Text Recognition> Recognize Text Using OCR ...'). Dans la boîte de dialogue des paramètres, choisissez «Image consultable» comme style de sortie. Cela gardera l'image de la page mais incorporera le texte OCR afin que le document soit consultable et permette au texte d'être sélectionné, copié et collé.
Après avoir exécuté l'OCR, vous devrez confirmer ou corriger les mots indiquant que l'OCR n'est pas sûr d'utiliser les fonctions «Rechercher des suspects d'OCR».
Si vous avez un compte Google, Google Documents inclut désormais la fonctionnalité permettant de télécharger un fichier PDF et d'effectuer une OCR dessus.
Je l'ai essayé moi-même et cela donne un coup de couteau à un PDF certes bien formaté.
Le formatage est quasiment détruit mais le texte semble survivre.
Les produits suivants ont été trouvés sur Internet, mais je ne les ai pas utilisés.
OCR en ligne
OCR Terminal est un service OCR en ligne qui effectue la reconnaissance optique de caractères (OCR) sur vos images numérisées et vos fichiers PDF et les convertit en documents modifiables et consultables par texte.
Free-OCR.com est un outil OCR (reconnaissance optique de caractères) en ligne gratuit. Vous pouvez l'utiliser pour effectuer l'OCR sur n'importe quelle image que vous fournissez.
Ce service est gratuit, aucune inscription n'est nécessaire. Nous n'avons pas non plus besoin de votre adresse e-mail.
Téléchargez simplement vos fichiers image. Free-OCR prend soit un JPG, GIF, TIFF BMP ou PDF ( uniquement la première page ). La seule restriction est que les images ne doivent pas être supérieures à 2 Mo, ni plus larges ni supérieures à 5000 pixels et il y a une limite de 10 téléchargements d'images par heure.
Maestro Recognition Server est commercial, mais propose une démo d'essai en ligne.
Logiciel gratuit
FreeOCR - pour les images uniquement.
FreeOCR est un programme de numérisation et d'OCR comprenant le moteur ocr gratuit Tesseract également connu sous le nom de GUI Tesseract. Il comprend un programme d'installation Windows et il est très simple à utiliser et prend en charge les tiff de plusieurs pages, les documents de télécopie ainsi que la plupart des types d'images, y compris les Tiff compressés que le moteur Tesseract ne peut pas lire à lui seul. Il a maintenant la numérisation Twain.
pdfsandwich - pdf -> convertisseur pdf.
pdfsandwich est un outil en ligne de commande pour les livres ou revues numérisés OCR. Il est capable de reconnaître la mise en page même pour le texte multicolonne.
Essentiellement, pdfsandwich est un script wrapper qui appelle les fichiers binaires suivants: convert, cuneiform, gs et hocr2pdf. Il est connu pour fonctionner sur les systèmes Unix et a été testé sur Linux et MacOS X. Il prend en charge le traitement parallèle sur les systèmes multiprocesseurs.
Cuneiform + hocr2pdf + Ghostscript : une solution open source DIY.
J'ai posté une réponse décrivant une solution impliquant une version du système OCR Cuneiform désormais open source et hocr2pdf avec Ghostscript pour assembler les pages PDF.
C'était spécifiquement pour Linux, mais vous pouvez également obtenir Cuneiform et Ghostscript pour Windows. Je ne suis pas sûr cependant de hocr2pdf ou d'un équivalent.
Installez Imagemagick . Ouvrez une fenêtre ou un terminal cmd:
convert myfile.pdf myfile-%02d.jpg
La sortie sera 1 fichier jpg pour chaque page de votre pdf, myfile-00.jpg, myfile-01.jpg, etc.
Passez chaque image à travers un programme ocr. Je n'ai pas beaucoup d'expérience avec cela, mais il semble y avoir beaucoup de choix.
Convertissez chaque page de texte en pdf. Vous pouvez recommencer avec imagemagick, mais il existe également d'autres moyens:
convert page-%02d.txt -density 300x300 -compress jpeg final.pdf
Votre demande semble être une solution compliquée au problème, bien que je ne puisse pas comprendre le problème correctement. À tout prix:
Pourquoi ne pas obtenir un rédacteur PDF qui vous permettra de saisir les données directement sur la page pdf?
Essayez PDFCubed.com Rien à installer, tout se fait en ligne. Vous pouvez envoyer vos documents à traiter via le Web, par e-mail ou via Dropbox. Les fichiers PDF et TIF numérisés sont convertis en fichiers PDF consultables et peuvent ensuite être récupérés via le Web, le courrier électronique ou la boîte de dépôt.