Aperçu
Ce que vous recherchez, ce sont des outils tels que Scan Tailor et unpaper qui sont capables de Thresholding , Despeckling et Noise Removal . Les deux outils fonctionnent avec des images plutôt qu'avec des fichiers PDF, mais vous pouvez facilement convertir entre les différents formats utilisés par ces applications et PDF en utilisant les outils décrits à la fin de cette réponse.
ScanTailor
Vous pouvez trouver un tutoriel vidéo ici . Une documentation plus complète est disponible sur le wiki officiel . Vous serez probablement le plus intéressé par la page sur le mode de sortie noir et blanc et les paramètres de filtre .
Unpaper
Je n'ai pas encore travaillé avec unpaper
moi-même. D'après ce que je comprends, il a beaucoup plus de fonctionnalités que ScanTailor mais il est également beaucoup plus difficile à maîtriser.
Il n'y a pas d'interface graphique et vous devrez vous fier aux commutateurs de ligne de commande pour faire votre travail. D'un autre côté, cela signifie que les conversions avec unpaper
peuvent facilement être automatisées à l'aide de scripts.
Vous pouvez trouver des exemples de script concernant la conversion d'une numérisation en noir et blanc et la suppression de l'arrière-plan ici .
Quelques outils utiles lorsque vous travaillez avec unpaper et ScanTailer
Je n'ai pas assez de temps pour rédiger un tutoriel complet sur ScanTailor et unpaper¹ mais voici quelques conseils concernant la conversion entre .pdf
et les formats d'image pris en charge par ces outils:
Vous pouvez utiliser pdfimages
pour convertir des documents PDF en .ppm
fichiers d' une seule page , qui peuvent être lus par unpaper
.
Exemple d'utilisation:
pdfimages *.pdf ./extracted-images
ScanTailor ne prend pas les .ppm
fichiers en entrée. Vous devrez d'abord les convertir dans un autre format comme le sans perte .png
. mogrify
hors de la imagemagick
suite d'outils peut le faire pour vous.
Exemple d'utilisation:
mogrify -format png *.ppm
Le format de sortie de ScanTailor et unpaper sont des .tiff
fichiers d' une seule page . Afin de les reconvertir, .pdf
je suggérerais d'utiliser tiffcp
et tiff2pdf
.
Exemple d'utilisation:
tiffcp *.tiff all.tiff
tiff2pdf -F -p A4 -z -o Document.pdf all.tiff
Installation
Cette commande installera tous les outils mentionnés ci-dessus:
sudo apt-get install scantailor unpaper poppler-utils libtiff-tools
¹: Pour tous ceux qui lisent ceci, n'hésitez pas à compiler une réponse plus complète basée sur ScanTailor et / ou unpaper.