Filtrage un peu de l'image «en demi-teinte» pour le traitement OCR


10

J'ai un document PDF numérisé auquel je veux ajouter un calque de texte masqué, afin de pouvoir indexer le document. J'ai utilisé le périphérique de sortie tiff ghostscript noir et blanc (tiffg4) pour extraire les pages sous forme d'images tiff, et voici un exemple de ce à quoi elles ressemblent:

entrez la description de l'image ici

Le traitement de cette image avec tesseract, ne donne pas de bons résultats.
Changer le DPI de sortie de ghostscript (600, 300, 150, 96) montre que l'image à 96 DPI donne le meilleur résultat de tesseract mais ce n'est toujours pas satisfaisant.

Maintenant, je pensais demander des conseils sur le filtre qui améliorerait cette image pour le traitement OCR.

Je pourrais utiliser imagemagick ou numpy / scipy / ndimage

Réponses:


9

Ce dont vous avez vraiment besoin, c'est probablement d'une opération morphologique comme une dilatation suivie d'une érosion. Ceci est appelé opération de fermeture . Peut-être dans votre cas - juste une dilatation elle-même pourrait être bonne.

Il y avait une question similaire posée précédemment - qui peut aider avec d'autres aspects.

conversion d'image monochrome (noir et blanc 1 bit)

Comment reconstruire du texte à partir d'une image en utilisant uniquement des opérations morphologiques?


2

vous pouvez supprimer cela en utilisant un filtre passe-bas. cela se fait soit dans l'espace des fréquences, soit il suffit de prendre la (différence de) gaussienne de l'image.

passe-bas gaussien, puis différence de gaussiens à affiner

En utilisant notre site, vous reconnaissez avoir lu et compris notre politique liée aux cookies et notre politique de confidentialité.
Licensed under cc by-sa 3.0 with attribution required.