Quelle est la solution OCR la plus simple et la meilleure?


78

Je voudrais numériser une bonne quantité de papiers que je traîne, avec le moins de tracas possible. Je souhaite les convertir en images à l'aide de la numérisation simple, puis les convertir en texte à l'aide de l'OCR. Existe-t-il une bonne application OCR avec une interface graphique qui me donnera de bons résultats en appuyant simplement sur un bouton?


Nous avons vraiment besoin de beaucoup de travail dans ce fil. Tant de choses anciennes / dépréciées / ... Pas de tests one-liner. Principalement les résultats / listes copiés-collés ici. Pas d'assurance qualité.
Léo Léopold Hertz

En 2018, la solution OCR de loin la plus simple consiste à utiliser une API ocr en ligne : les logiciels OCR de Google Vision, Azure ou OCR.space gratuit fournissent tous des résultats OCR de grande qualité, bien entendu uniquement si votre application / cas d'utilisation autorise une solution cloud. .
Nic Endo

Réponses:


70
  • GOCR from est un programme OCR (Reconnaissance Optique de Caractères). Il convertit les images numérisées de texte en fichiers texte.

  • CLARA est une autre bonne option graphique.

  • OCRAD from est un OCR pouvant être utilisé en tant qu'application console autonome ou en tant que serveur principal pour d'autres programmes.

  • KOOKA de est une application KDE mais fonctionne très bien. En outre, vous devez installer les programmes OCR réels tels que GOCR et OCRAD.Après l’installation de Kooka et des programmes OCR, vous devez pointer Kooka vers l’emplacement d’installation de la ROC afin de le convertir le JPEG en texte.

  • OCRFeeder de est un système d’analyse de mise en page de document et de reconnaissance optique de caractères.

  • Tesseract à partir estutilitaire de lignecommande et il est très simple à use.You peut installerpaquet de langue tesseract-ocr-eng d' ici .

Regardez cette page .

Remarque:
pour exécuter le terminal tesseract goto et tapez ce qui suit

tesseract imagefile.tif outputfile.txt

Tesseract ne peut lire qu'un fichier TIFF. Si vous avez un fichier JPEG ou PDF, vous devrez le convertir. En outre, l’extension du nom de fichier doit être .tif, pas .tiff, sinon tesseract error out.


1
Si votre langue parlée n'est pas l'anglais? y a-t-il des extensions pour une autre langue?
Vassilis

3
@Vassilis: les systèmes d'OCR sont indépendants du langage car ils reconnaissent les caractères, pas les mots. Cependant, si votre alphabet n'a pas de caractères latins1 (comme le cyrillique), il risque de les manquer.
OpenNingia

2
@OpenNingia: La langue peut être importante, même avec des systèmes d'écriture utilisant uniquement des lettres latines. Cela aide l’OCR à distinguer les lettres ambiguës.
Frédéric Grosshans

13
Ces questions / réponses font vraiment chier askubuntu. La personne a demandé "Quelle est la meilleure solution OCR, la plus simple", et non "Quelles sont toutes les applications OCR disponibles pour Linux". Cette solution n'aurait pas dû être acceptée! Vraiment déroutant et pas utile.
Alin Andrei

1
Ubuntu tesseract(3.04.00 sur Ubuntu 15.10) n'a actuellement aucun problème avec PNGles fichiers d'entrée. il accepte les JPGfichiers, mais leur résultat est pire, comme on pourrait s'y attendre avec des artefacts de compression supplémentaires.
Volker Siegel

10

Il existe quelques outils de ligne de commande OCR populaires que vous pouvez utiliser (je ne sais pas s'ils ont une interface graphique):

  • Tesseract ( ReadMe , FAQ ) (Python)

    Egalement disponible pour: Tesseract .NET , Tesseract iOS

    Un moteur OCR mis au point chez HP Labs entre 1985 et 1995 ... et maintenant chez Google. Tesseract est probablement le moteur OCR open source le plus précis disponible.

    Usage:

    tesseract [inputFile] [outputFile] [-l optionalLanguageFile] [PathTohOCRConfigFile]
    
  • GOCR

    Reconnaissance de caractères open-source. Il convertit les images numérisées de texte en fichiers texte. GOCR peut être utilisé avec différents frontaux, ce qui facilite grandement le portage sur différents systèmes d'exploitation et architectures. Il peut ouvrir de nombreux formats d’image différents et sa qualité s’améliore de jour en jour.

  • OCRopus ™ ( FAQ ) (écrit en Python, NumPy et SciPy)

    Système OCR axé sur l’apprentissage automatique à grande échelle pour résoudre les problèmes d’analyse de documents, comprenant une analyse de structure enfichable, une reconnaissance de caractères enfichable, une modélisation statistique en langage naturel et des fonctionnalités multilingues.

    Le moteur d'OCRopus repose sur deux projets de recherche: un outil de reconnaissance de l'écriture manuscrite très performant mis au point au milieu des années 90 et déployé par le US Census Bureau, ainsi que de nouvelles méthodes d'analyse de la présentation hautement performantes.

    Le développement d’OCRopus est sponsorisé par Google et est initialement destiné aux efforts de conversion de documents à haut débit et à volume élevé. Nous nous attendons à ce que ce soit également un excellent système OCR pour de nombreuses autres applications.

  • Tessnet2 (Open source, OCR, Tesseract, .NET, DOTNET, C #, VB.NET, C ++ / CLI)

    Tesseract est un moteur OCR open source C ++. Tessnet2 est un assemblage .NET qui expose des méthodes très simples pour effectuer une OCR. Tessnet2 est sous licence Apache 2 (comme tesseract), ce qui signifie que vous pouvez l'utiliser comme vous le souhaitez, inclus dans les produits commerciaux.

Quelques autres: OCR ABBYY CLI pour Linux , OCR Asprise

Pour une liste plus complète, consultez: Liste des logiciels de reconnaissance optique de caractères sur Wikipedia

Voir aussi: wanghaisheng/awesome-ocr- Une liste organisée de ressources OCR prometteuses sur GitHub.


9

linux-intelligent-ocr-solution

disclaimer - Je suis étroitement associé au développement de cette solution opensource

Lios peut convertir une impression en texte à l'aide d'un scanner ou d'un appareil photo.

Il peut également produire du texte à partir d'images numérisées provenant d'autres sources, telles que des fichiers PDF, des images ou des dossiers contenant des images.

Le programme est totalement accessible aux malvoyants.

Depuis que je suis étroitement connecté - j'aimerais des commentaires.


Où est la documentation sur l'utilisation? lios n’est pas aussi intuitif que je l’espérais.
un codeur

Le projet a déménagé ici .
Suzana

Est-il possible de l'exécuter via la ligne de commande uniquement en mode sans tête sur le serveur?
Impasse

9

Gscan2PDF

OCR sur plusieurs pages PDF ou documents numérisés

C'est probablement le moyen le plus simple. Gscan2pdf est un outil graphique qui vous permet non seulement de numériser des fichiers, mais également d'importer des fichiers et d'y effectuer des opérations de ROC. Installez gscan2pdf à partir d’ici Installez gscan2pdf , à partir du Centre de logiciel Ubuntu ou en exécutant cette commande dans un terminal:

sudo apt-get install gscan2pdf
  • Exécuter gscan2pdf
  • Importer le pdf (Ctrl + O)
  • Facultatif: Outils> Nettoyer
  • Choisissez Outils> OCR Enregistrer (Ctrl + S).

Gscan2PDF peut utiliser des moteurs OCR personnalisables. La valeur par défaut est tesseract-ocr

Vous pourriez envisager de choisir la langue appropriée. Dans ce cas, vous devrez installer un tesseract-ocr-LANGpackage LANGcontenant le code de langue à trois lettres ISO 639-2. En ce moment, vous avez 108 langues sur 16.04 repo.


Je ne peux rien faire avec ce logiciel. Pas de détection suffisante du tout. Il serait bon d’obtenir des échantillons de test sur les applications avant leurs recommandations.
Léo Léopold Hertz

gscan2pdf pour 16.04 au moins n’a pas de raccourci d’option Ctrl + i. Ouvrir un fichier pdf identifie correctement les "pages à extraire", mais sélectionner "ok" ne fait rien.
user75505

3

Je viens d'avoir du succès (sous 16.04) avec pdfocr.rb . Ceci est listé sur le wiki Ubuntu

Voici un ppa mais le référentiel de 16.04 n'est pas mis à jour. Le script ruby ​​ci-dessus de github fonctionne toujours avec 16.04.

Vous pouvez le télécharger à partir de Github. Vous aurez besoin des packages suivants installés:

ruby tesseract-ocr pdftk exactimage

puis rendu pdfocr.rb exécutable et exécuté:

./pdfocf.rb -i source.pdf -o output.pdf

Vous pouvez éventuellement utiliser le -l LANGparamètre. Dans ce cas, vous devrez installer un tesseract-ocr-LANGpackage LANGcontenant le code de langue à trois lettres ISO 639-2. En ce moment, vous avez 108 langues sur 16.04 repo.


3

Le meilleur et le plus simple moyen de l'utiliser pypdfocrest de ne pas changer le pdf. pypdfocr est un lien de module python ici.

pypdfocr your_document.pdf

À la fin, vous en aurez une autre your_document_ocr.pdfcomme vous le souhaitez avec un texte interrogeable. L'application ne change pas la qualité de l'image. Augmente un peu la taille du fichier en ajoutant le texte de surimpression.

Je pense que la commande est assez facile car elle ne nécessite aucune interface graphique. Peut-être que l'installation de pypdfocr est un peu plus verbeuse:

sudo apt install tesseract-ocr 
pip install pypdfocr 

Mise à jour du 3 novembre 2018:

pypdfocrn'est plus pris en charge depuis 2016 et j'ai remarqué quelques problèmes dus au fait que je n'étais pas mentalisée. ocrmypdf( module effectue un travail symiliaire et peut être utilisé comme ceci:

ocrmypdf in.pdf out.pdf

À installer:

pip install ocrmypdf

ou

apt install ocrmypdf

C’est un outil très intéressant, même si je pense que OP voulait un outil graphique permettant de produire un fichier texte, pas un sandwich PDF. Ce serait bien si vous pouviez inclure le site Web du projet.
Andrea Lazzarotto

@AndreaLazzarotto Oui, j'ai vu, mais comme la commande est aussi simple, beaucoup de gens peuvent utiliser le terminal pour cela. j'ai donc pensé à inclure la solution ici
Eduard Florinescu

1
Comme par hasard, j'ai découvert récemment "ocrmypdf". Avez-vous vérifié? C'est très gentil. :)
Andrea Lazzarotto

@AndreaLazzarotto semble être une bonne alternative, vous pouvez poster une réponse;) Je vais l'essayer pour voir comment ça marche :)
Eduard Florinescu

@AndreaLazzarotto Semble n'est pas si facile d'installer ocrmypdf sur Ubuntu 16.04 github.com/jbarlow83/OCRmyPDF/issues/118
Eduard Florinescu

3

Tout simplement parce que cela fonctionne très bien et devrait certainement être dans la liste:


Exemple de gimageReader à partir d'une capture d'écran:

entrez la description de l'image ici

Il est dans les pensions (répondu le 18.10, mais l'utilise depuis des lustres)


Lorsque j'ai lancé gimageReader pour la première fois, cela m'a donné un message "Aucune langue disponible" pour tesseract. La réponse " Comment installer un nouveau pack de langues pour tesseract " ne figure pas dans la liste des engoptions ... mais j'ai tout réglé! :) Courir sudo apt install tesseract-ocr-engdans le terminal a fait l'affaire. Ce serait bien si cela était documenté dans le fichier d'aide de gimageReader ou dans "README" sur github ... ou quelque part. Comme ici, peut-être.
Dɑvïd le

1

gscan2pdf comprend 3 moteurs ocr différents. Vous pouvez numériser directement dans le programme ou importer votre pdf dans le programme. J'ai trouvé le moteur Tesseract très efficace et très facile à utiliser

En utilisant notre site, vous reconnaissez avoir lu et compris notre politique liée aux cookies et notre politique de confidentialité.
Licensed under cc by-sa 3.0 with attribution required.