djvu en pdf avec calque de texte

Essayer de convertir djvu avec calque de texte en pdf avec calque de texte. J'ai essayé toutes les méthodes en ce post et aucun d’entre eux ne conserve le calque de texte.

Quelles sont mes options?

pdf djvu

— nullUser
source

Autant que je sache, vous avez deux options:

Utilisation ocrodjvu et pdfbeads comme décrit ici .

Les commandes pertinentes supposant que votre fichier DJVU est appelé sample.djvu et vous voulez convertir la page 10 en PDF comprenant le calque de texte:

djvu2hocr -p 10 sample.djvu | sed 's/ocrx/ocr/g' > pg10.html

ddjvu -format=tiff -page=10 sample.djvu pg10.tif

pdfbeads -o pg10.pdf
Utilisation Djview4 convertir le fichier DJVU au format PDF puis utilisez PDF-XChange Viewer effectuer l'OCR. Cela prend du temps mais c'est sacrément bon (même sur des documents à deux colonnes).

En principe, les deux options devraient fonctionner sur Mac, Windows et Linux. Pour l'option 2. vous aurez besoin Du vin sur Mac et Linux.

J'ai essayé l'option 1. avec une seule page et elle ne s'est pas terminée en moins de 10 minutes sur un ordinateur portable récent doté d'un processeur quad-core et de 8 Go de RAM. YMMV.

L'option 2. a pris deux heures sur un document de 50 pages sur un ordinateur de bureau récent doté d'un processeur quad-core et de 16 Go de RAM, mais les résultats sont impressionnants.

— Marduk
source