Tesseract
En 2018, le meilleur logiciel OCR open source disponible est Tesseract 4 (beta) avec son nouveau modèle OCR de réseau neuronal LSTM . Ses performances OCR sont bien meilleures que le modèle OCR précédent utilisé dans la version 3.
Exemple (produire un fichier PDF output.pdf
avec une couche de texte pour un document allemand numérisé):
$ echo page-*.png > input.list
$ tesseract --oem 1 -l deu input.list output pdf
Imprimez le texte reconnu sur stdout:
$ tesseract --oem 1 -l deu page page-0001.png stdout
Liste des langues installées:
$ tesseract --list-langs
La prise en charge de nombreuses langues / scripts est disponible sous la forme d'un ensemble de données téléchargeables , par exemple il existe même un ensemble de données pour Fraktur.
Avec le nouveau modèle LSTM, Tesseract s'inspire du projet de recherche OCRopus .
La version 3 de Tesseract fonctionne relativement mal même sur des images d'entrée de bonne qualité, c'est-à-dire qu'elle détecte souvent à tort des caractères uniques dans des pixels de poussière (en dehors de tout contexte textuel) et introduit facilement des erreurs de caractère unique dans des mots bien connus.
Cunéiforme
Les performances de l'OCR cunéiforme ne sont pas si mauvaises, mais elles ne sont pas activement maintenues (dernière version en 2011, version 1.1) et se bloquent facilement et ont d'autres problèmes:
- Erreurs de segmentation avec divers packages et versions
- son algorithme de mise en page est simplement cassé, c'est-à-dire que dans les documents à une colonne, les paragraphes sont souvent mélangés de manière aléatoire
- il ne fait pas d'erreur sur des options inconnues
Vous pouvez désactiver l'algorithme de mise en page comme ceci:
$ cuneiform --singlecolumn -l ger -f text -o foo.txt image-0001
( -l
spécifie la langue du document source)
ocrad
$ ocrad -F utf8 image-0001
Le texte est imprimé par défaut sur stdout.
Dans un document commercial, il manquait un mot souligné, ce qui n'était pas le cas de cunéiforme / tesseract / gocr.
gocr
$ gocr image-0001
Le texte est imprimé par défaut sur stdout.
Matériel
Sane prend très bien en charge de nombreux scanners à alimentation automatique de documents (ADF), par exemple ceux d' Avision et de Fujitsu .
Inclus avec Sane est le scanimage
programme en ligne de commande que vous pouvez utiliser pour construire des pipelines de scan scriptés (cf. par exemple mon adf2pdf.py
script).