Comment supprimer l'arrière-plan de la page en niveaux de gris d'une numérisation de document PDF tout en préservant le texte? (Binarisation)


9

Mon PDF contient 600 pages avec des images de texte. Il a 2 couches .

  • Couche 1: Image couleur d'arrière-plan

  • Couche 2: image texte

Je souhaite supprimer tous les calques d'image d'arrière-plan du fichier PDF total, comme indiqué dans l'image.

entrez la description de l'image ici

Pourriez-vous me suggérer un logiciel / outil?

entrez la description de l'image ici


Quelle version d'Ubuntu utilisez-vous?
Mitch

Ubuntu 13.10, 64 bits.
Raghu G

Description de la question mise à jour.
Raghu G

Réponses:


9

Aperçu

Ce que vous recherchez, ce sont des outils tels que Scan Tailor et unpaper qui sont capables de Thresholding , Despeckling et Noise Removal . Les deux outils fonctionnent avec des images plutôt qu'avec des fichiers PDF, mais vous pouvez facilement convertir entre les différents formats utilisés par ces applications et PDF en utilisant les outils décrits à la fin de cette réponse.

ScanTailor

Vous pouvez trouver un tutoriel vidéo ici . Une documentation plus complète est disponible sur le wiki officiel . Vous serez probablement le plus intéressé par la page sur le mode de sortie noir et blanc et les paramètres de filtre .

Unpaper

Je n'ai pas encore travaillé avec unpapermoi-même. D'après ce que je comprends, il a beaucoup plus de fonctionnalités que ScanTailor mais il est également beaucoup plus difficile à maîtriser.

Il n'y a pas d'interface graphique et vous devrez vous fier aux commutateurs de ligne de commande pour faire votre travail. D'un autre côté, cela signifie que les conversions avec unpaperpeuvent facilement être automatisées à l'aide de scripts.

Vous pouvez trouver des exemples de script concernant la conversion d'une numérisation en noir et blanc et la suppression de l'arrière-plan ici .


Quelques outils utiles lorsque vous travaillez avec unpaper et ScanTailer

Je n'ai pas assez de temps pour rédiger un tutoriel complet sur ScanTailor et unpaper¹ mais voici quelques conseils concernant la conversion entre .pdfet les formats d'image pris en charge par ces outils:

  • Vous pouvez utiliser pdfimagespour convertir des documents PDF en .ppmfichiers d' une seule page , qui peuvent être lus par unpaper.

    Exemple d'utilisation:

    pdfimages *.pdf ./extracted-images
  • ScanTailor ne prend pas les .ppmfichiers en entrée. Vous devrez d'abord les convertir dans un autre format comme le sans perte .png. mogrifyhors de la imagemagicksuite d'outils peut le faire pour vous.

    Exemple d'utilisation:

    mogrify -format png *.ppm
  • Le format de sortie de ScanTailor et unpaper sont des .tifffichiers d' une seule page . Afin de les reconvertir, .pdfje suggérerais d'utiliser tiffcpet tiff2pdf.

    Exemple d'utilisation:

    tiffcp *.tiff all.tiff
    tiff2pdf -F -p A4 -z -o Document.pdf all.tiff
    

Installation

Cette commande installera tous les outils mentionnés ci-dessus:

sudo apt-get install scantailor unpaper poppler-utils libtiff-tools

¹: Pour tous ceux qui lisent ceci, n'hésitez pas à compiler une réponse plus complète basée sur ScanTailor et / ou unpaper.


Scantailer fonctionne mais sur des fichiers pdf. Vous devez d'abord le convertir en un format d'image.
À faire

@ToDo Oui, comme indiqué dans la réponse :).
Glutanimate

Je m'en suis rendu compte maintenant. Il est préférable d'organiser la réponse de sorte que toutes les informations sur chaque programme soient dans un bloc.
À faire

@ToDo La raison initiale pour laquelle j'ai mis les outils dans une section spearate était parce qu'ils étaient pertinents à la fois pour le papier et Scantailor. Vous avez raison, cependant, c'était un peu désorganisé. Je pense que ça devrait être mieux maintenant
Glutanimate

3

Je viens de trouver une solution très simple:

  • installer gscan2pdf.

  • Ouvrez gscan2pdfet importez le PDF.

  • outils-> seuil. La valeur par défaut de 80% a bien fonctionné pour moi.

  • enregistrez le PDF dans un autre emplacement.


En utilisant notre site, vous reconnaissez avoir lu et compris notre politique liée aux cookies et notre politique de confidentialité.
Licensed under cc by-sa 3.0 with attribution required.