Voici une solution qui nécessiterait des outils moins courants:
- ocrodjvu
- pdfbeads , qui a ses propres exigences qui peuvent être trouvées par Google
Nous pouvons utiliser djvu2hocr
command (from ocrodjvu
package) pour extraire le calque de texte caché du fichier DjVu (il ne fait pas d’OCR ou similaire, il extrait simplement le calque de texte avec une géométrie), c’est-à-dire:
djvu2hocr -p 10 sample.djvu | sed 's/ocrx/ocr/g' > pg10.html
sed
intervention corrige les noms de classe dans la sortie hOCR (qui est un simple fichier HTML)
Nous extrayons maintenant la page DjVu au format TIFF avec:
ddjvu -format=tiff -page=10 sample.djvu pg10.tif
afin que nous terminions avec ces fichiers dans notre dossier de travail:
sample.djvu
pg10.html
pg10.tif
C'est là pdfbeads
qu'entre en jeu, et nous exécutons simplement:
pdfbeads -o pg10.pdf
alors ce programme astucieux s’occupe de tout ce qui se trouve dans ce dossier (fichiers HTML et TIFF avec le même nom de base) et génère un fichier PDF en sortie avec certains sous-produits:
sample.djvu
pg10.html
pg10.tif
pg10.jbig2
pg10.pdf
pg10.sym
qui est identique au fichier DjVu en entrée et contient un calque de texte:
Résumé des commentaires:
Les longs commentaires ci-dessous expliquent comment représenter des images plus petites à partir d'une page de document DjVu en tant qu'objets séparés, ce qui n'est pas facilement possible car la page de document DjVu n'est en elle-même qu'une seule image avec un calque de texte facultatif, sans aucune "information" sur les images plus petites en tant qu'objets séparés. Si le document DjVu contient des images couleur, elles seront généralement placées sur le calque d'arrière-plan. dans ce cas, l'utilisateur peut tirer parti d'outils tels que ddjvu
(extraire uniquement les calques d'arrière-plan) et imagemagick
(rognage automatique) pour générer uniquement des images au lieu de la totalité du canevas, mais cette opération ne peut pas être automatisée pour créer un document PDF.
Une autre approche plus saine, mais plus lente, consiste à utiliser des outils d'interface graphique OCR classiques. gscan2pdf
(> 1.0) est suggéré comme candidat possible pour Linux PC