Je recherche un outil scriptable hors ligne qui permet de rechercher un fichier PDF existant en exécutant l'OCR sur celui-ci, en remplaçant le fichier d'origine non consultable par la version consultable, et peut fonctionner sans surveillance.
Par exemple, www.pdfscannerapp.com - fait exactement ce dont j'ai besoin, mais c'est uniquement une interface graphique - pas scriptable.
Je sais qu'Evernote rend les fichiers PDF consultables, mais ils ne peuvent être recherchés que lorsqu'ils sont dans Evernote.
Je ne recherche pas une OCR parfaite, même une OCR modérément acceptable convient, mais je préférerais un petit utilitaire plutôt qu'un gros logiciel.
(Je connais une question similaire, mais différente sur AD: à la recherche de logiciels à numériser ou à convertir en PDF consultable et signable - cependant, je n'ai pas besoin de signer ou de remplir des PDF, et mon exigence est que la solution soit scriptable)
ÉDITER:
1) Plusieurs utilitaires permettent l'extraction de texte structuré, mais pour être extrait, le texte doit être là; Je me réfère principalement aux PDF qui sont des bitmaps enveloppés, comme c'est le cas avec les PDF simples générés par les scanners.
2) Je ne recherche pas nécessairement une solution gratuite, et je serais plus qu'heureux de payer pour un bon utilitaire qui fait exactement ce dont j'ai besoin, mais je ne cherche pas des applications volumineuses avec un million de fonctionnalités qui incluent une fonction OCR mais dont le coût ne justifie pas de les acheter uniquement pour la fonctionnalité OCR.
3) Comme indiqué ci-dessus, je ne recherche pas une OCR parfaite, juste une OCR modérément acceptable. Malheureusement, d'après mon expérience, tesseract est vraiment en dessous de ce seuil. Je définis «modérément acceptable» un OCR qui peut, par exemple, OCR une facture de services publics afin qu'au moins le numéro de compte (numéro de client) soit reconnu correctement.
EDIT: "scriptable" ou "automatisable", c'est-à-dire pouvant être déclenché automatiquement et exécuté sans surveillance sans aucune intervention humaine.