Réponse principale
Depuis que je suis intéressé par le même genre de travail (mais pas nécessairement OCR les fichiers PDF, mais pour les convertir en DjVu et puis OCR eux), je trouve cette question et les réponses manquent (puisque je devais deviner le DPI du images avec le nombre de pixels, puis utilisez la taille comme sortie par pdfinfoou d'autres astuces --- sans oublier que les images à l'intérieur d'un PDF peuvent avoir des densités différentes, etc.).
Après beaucoup de recherches, j'ai trouvé que vous pouvez utiliser pdfimages(à partir du package poppler-utils ) comme suit:
$ pdfimages -list deptest.pdf
page num type width height color comp bpc enc interp object ID x-ppi y-ppi size ratio
--------------------------------------------------------------------------------------------
1 0 image 100 100 gray 1 1 image no 9 0 53 53 169B 14%
2 1 image 100 100 gray 1 1 ccitt no [inline] 53 53 698B 56%
Remarquez le x-ppiet y-ppisur la liste ci-dessus. Il répertorie également le format dans lequel les images sont stockées dans le PDF, ce qui est cool (parfois, c'est JBIG2, parfois JPEG2000 etc.)
Remarque: Le fichier deptest.pdfutilisé ci-dessus est disponible à partir pdfsizeoptdu référentiel de .
La vraie action
Après cela, vous pouvez simplement extraire les images avec pdfimageslui-même ou utiliser pdftoppm(également à partir de poppler-utils) pour rendre des pages entières dans de nombreux formats que vous aimerez (par exemple, tiff, pour numériser avec tesseract).
Vous pouvez utiliser quelque chose comme ce qui suit (en supposant que vous avez créé un répertoire nommé imgsoù vous placerez vos images):
pdfimages -png Faraway-PRA.pdf imgs/prefix
Les fichiers seront créés dans le répertoire imgsavec des noms commençant par prefix, comme dans:
$ ls
prefix-000.png prefix-047.png prefix-094.png prefix-141.png
prefix-001.png prefix-048.png prefix-095.png prefix-142.png
prefix-002.png prefix-049.png prefix-096.png prefix-143.png
prefix-003.png prefix-050.png prefix-097.png prefix-144.png
(...)
Vous pouvez alors effectuer toute opération que vous jugez appropriée avec des outils comme scantailorou ce que vous voulez.
Réponse plus directe
Si vous souhaitez simplement OCR un fichier PDF, vous pouvez utiliser un programme qui est bien entretenu et déjà packagé, à savoir ocrmypdf .
x-ppi(résolution x en DPI) ety-ppi(résolution y en DPI) ne sont PAS affichées sur les anciennes versionspdfimagesfournies avec Ubuntu 14.04, par exemple. Ce qui est disponible sur Ubuntu 18.04, cependant, inclut ces valeurs.pdfimages -vsur ma machine Ubuntu 18.04 montre que j'ai la version 0.62.0, qui n'ont ces caractéristiques.