Filtrage un peu de l'image «en demi-teinte» pour le traitement OCR

10

J'ai un document PDF numérisé auquel je veux ajouter un calque de texte masqué, afin de pouvoir indexer le document. J'ai utilisé le périphérique de sortie tiff ghostscript noir et blanc (tiffg4) pour extraire les pages sous forme d'images tiff, et voici un exemple de ce à quoi elles ressemblent:

entrez la description de l'image ici

Le traitement de cette image avec tesseract, ne donne pas de bons résultats.
Changer le DPI de sortie de ghostscript (600, 300, 150, 96) montre que l'image à 96 DPI donne le meilleur résultat de tesseract mais ce n'est toujours pas satisfaisant.

Maintenant, je pensais demander des conseils sur le filtre qui améliorerait cette image pour le traitement OCR.

Je pourrais utiliser imagemagick ou numpy / scipy / ndimage

image-processing ocr

— zetah
source

9

Ce dont vous avez vraiment besoin, c'est probablement d'une opération morphologique comme une dilatation suivie d'une érosion. Ceci est appelé opération de fermeture . Peut-être dans votre cas - juste une dilatation elle-même pourrait être bonne.

Il y avait une question similaire posée précédemment - qui peut aider avec d'autres aspects.

conversion d'image monochrome (noir et blanc 1 bit)

Comment reconstruire du texte à partir d'une image en utilisant uniquement des opérations morphologiques?

— Dipan Mehta
source

2

vous pouvez supprimer cela en utilisant un filtre passe-bas. cela se fait soit dans l'espace des fréquences, soit il suffit de prendre la (différence de) gaussienne de l'image.

— Christoph Rackwitz
source