tl; dr? Commencez avec Nuance PowerPDF Advanced.
J'ai évalué le logiciel OCR en décembre 2014 en préparation d'un grand projet - OCR sur des millions de pages en anglais faites par lots. Si vous êtes prêt à dépenser quelques centaines de dollars, vous avez plusieurs options; les versions d'essai peuvent vous aider si vous n'avez besoin que de convertir quelques centaines de pages.
De nombreux logiciels souhaitent charger tous les fichiers d'entrée, effectuer une reconnaissance optique de caractères et fusionner le désordre en une seule sortie. À mon humble avis, c'est complètement faux, je ne sais pas qui voudrait ça. Je cherchais un vrai lot: un fichier de sortie pour chaque fichier d'entrée, une opération sans assistance, ne vous arrêtez pour rien, donnez-moi un rapport détaillé à la fin. Alerte spoiler: je n'ai pas trouvé ça.
Les packages par ordre alphabétique suivent. Les prix indiqués ci-dessous sont une liste mais les rabais abondent. Prenez mes commentaires sur la précision avec un grain de sel; vos entrées ne seront pas les mêmes que mes entrées, donc votre kilométrage variera certainement.
ABBYY Finereader 12 Corporate: 400 $. La fonction de traitement par lots est appelée "Gestionnaire des tâches" et se trouve dans le menu Outils. Il traitera les fichiers d'un dossier, y compris les sous-dossiers; il se fera un plaisir de créer un fichier de sortie distinct pour chaque fichier d'entrée. Il ne semble pas capable de conserver la hiérarchie des dossiers d'entrée; tous les fichiers de sortie sont allés dans le même dossier de sortie. La précision était élevée dans mes tests, mais toujours la plus faible des packages que j'ai énumérés ici.
Adobe Acrobat XI: 300 $. La fonction de traitement par lots est appelée "Reconnaissance de texte / dans plusieurs fichiers", que vous pouvez trouver en cliquant sur Outils (troisième barre d'outils, en haut à droite de l'écran principal). Traite les sous-dossiers, une sortie pour chaque entrée. Arrête et affiche une invite s'il trouve un fichier protégé par mot de passe. Ne conserve pas l'arborescence du répertoire d'entrée par défaut; peut le faire en écrivant la sortie dans le même dossier que l'entrée. La précision était assez bonne dans mes tests.
Nuance OmniPage Ultimate (alias v19): 500 $. La fonction de traitement par lots est appelée "DocuDirect" et c'est un programme distinct fourni avec le package. Il traitera les dossiers et sous-dossiers; si vous sélectionnez les fonctionnalités à droite, il conservera l'arborescence du répertoire d'entrée dans la zone de sortie. Une sortie pour chaque entrée. Arrête et demande un mot de passe pour un fichier protégé. Semble tirer un excellent avantage des processeurs multicœurs pour exécuter des tâches en parallèle. La précision était excellente . Mais la stabilité du processeur par lots est médiocre; un document flou l'arrêtera sur ses traces, pour ne jamais le récupérer, faisant dérailler un lot avec facilité.
Nuance PowerPDF Advanced v1.1 (successeur d'OmniPage Ultimate): 150 $. La fonction Batch est appelée "Batch Converter" et elle est accessible à partir du programme principal sous l'onglet Traitement avancé. Il traitera les dossiers et sous-dossiers, préservant la structure d'entrée dans la sortie. Une sortie pour chaque entrée. Utilisera plusieurs cœurs, mais pas de manière agressive; ce que cela signifie, c'est que je ne pouvais pas le faire saturer un hôte multicœur. La précision est excllente , aussi bonne ou meilleure qu'OmniPage. Les fichiers incorrects ou flous ne l'ont pas bloqué. Le processeur par lots écrit ( choc ) un fichier journal en texte brut dans le répertoire de sortie.
ReadIris Corporate 14: 600 $. La fonction Batch est invoquée par l'élément "Batch OCR" qui est révélé en cliquant sur le bouton "From Files" sur l'écran principal. Il traitera les dossiers et sous-dossiers, une sortie pour chaque entrée et, par défaut, la structure du répertoire de sortie correspond à la structure du répertoire d'entrée. Arrête et demande l'entrée de l'utilisateur sur un fichier invalide; traite sans autre plainte tous les documents protégés apparemment par OCR-ing l'image. La précision était très bonne, comparable à Acrobat.
Sur ma machine de bureau (uniquement dual core), avec les entrées que j'ai choisies, chaque package a nécessité au moins 3 secondes pour traiter une page; certains en ont pris plus. Pourrait être en mesure de conduire cela sur une machine avec plus de cœurs.
Les Gotchas abondent, assurez-vous de les planifier: PDF non valides (certains packages s'arrêtent), PDF protégés par mot de passe (certains packages s'arrêtent, d'autres convertissent de toute façon!), Et des pages pivotées (paysage au lieu de portrait). Si vous souhaitez que le lot s'exécute jusqu'à la fin, vous devez préparer la zone d'entrée pour ces packages très, très soigneusement. Examinez la fonction d'impression au format PDF du package GhostScript pour trouver un moyen de supprimer la protection des PDF.
L'exécution de grands lots peut entraîner un épuisement de la mémoire et des problèmes de suspension, même si cela ne devrait pas (argh - probablement des fuites de mémoire). Si vous faites une quelconque automatisation, un gros problème est de découvrir après coup ce qui s'est réellement passé - quels documents n'ont pas pu être traités, qui ont échoué pendant le traitement, etc. C'est comme les logiciels de bureau que les gens n'ont jamais entendu parler de quelque chose appelé "fichier journal".
Enfin, obtenir de l'assistance, même en tant que client payant, est assez difficile pour ces forfaits grand public. Par exemple, je me suis plaint à un représentant du service client estimé d'un package (qui doit rester anonyme) suspendu pour certaines entrées importantes. J'ai attendu 36 heures avant d'abandonner :). Ils ont gentiment suggéré de limiter la taille du lot à 300 documents. C'était tout à fait inacceptable pour moi, mais bon, le ticket d'assistance a été fermé rapidement, non? Et c'est tout ce qui compte, non? Soupir.
HTH