Comment extraire une image d'un fichier PDF

49

J'utilise actuellement le lecteur PDF de Foxit et j'ai récemment téléchargé une image d'Internet, mais elle se trouve dans un fichier PDF. Comment extraire cette image?

Le système d'exploitation est Windows 7.

— studiohack
source

votre extraction de la plus haute qualité consistera à extraire le format de l'image déjà enregistré dans le fichier pdf. (du moins, je pense que c'est comme ça que les images au format PDF fonctionnent.)

— Quack quixote

4

Si vous n’avez pas besoin de la résolution originale en pixels de l’image, il suffit d’appuyer sur les boutons ALT et Imprimer l’écran. Ensuite, choisissez coller où vous voulez l'image.

L’autre façon de préserver la résolution consiste à ouvrir le fichier PDF dans un programme de retouche d’image tel que Adobe Photoshop et à l’utiliser avec celui-ci.

— UserSuUserDo
source

1

Si vous ouvrez un document PDF dans Photoshop, la boîte de dialogue "Convertir le format PDF générique" apparaît, empêchant ainsi la préservation de la résolution. Testé avec PS7. Les nouvelles versions de Photoshop sont-elles différentes?

— AffineMesh

1

comme vous l'avez dit, [alt] + [prnscr] ne conserve pas la résolution en pixels d'origine (il utilise la résolution utilisée par votre écran / moniteur actuel).

— Kurt Pfeifle le

1

@studiohack, @UserSuUserDo: Non seulement vous perdrez la résolution originale si vous utilisez [alt] + [prnscr], mais vous obtenez la fenêtre complète du visualiseur PDF sous forme d'image. Cela peut être «suffisant» pour de nombreux cas d'utilisation. Mais parfois, vous souhaitez que le graphique tel qu’il soit intégré à la page PDF uniquement. Voici pdfimages.exepratique.

— Kurt Pfeifle le

1

Ou utilisez l'outil de capture intégré à W7 pour capturer la zone souhaitée.

— Moab

71

Si vous téléchargez XPDF pour Windows ( ici ), vous trouverez quelques fichiers .exe à l'intérieur. Vous pouvez les exécuter sans "installation". Utilisez pdfimages.execomme ceci:

pdfimages.exe -help

Cela affiche l'écran d'aide.

pdfimages.exe ^
    -j ^
    c:\path\to\your.pdf ^
    c:\path\to\where\you\want\images\prefix\

Cela extrait tous les JPEG sous le préfixe-00N.jpg, et toutes les autres images sous le préfixe-00N.ppm (Portable PixMap).

[ Edit by ComFreek: Veuillez noter la barre oblique finale dans le chemin de destination, ce qui est important si vous ne voulez pas extraire toutes les images de son répertoire parent.] -
{ Edit de KurtPfeifle: Je ne suis pas d'accord avec le commentaire de ComFreek, mais laissez aux lecteurs de tester et de découvrir les différences de résultats eux-mêmes. Mon paramètre d'origine, sans barre oblique finale, ..\prefixpréfixera les noms d' image utilisés pour les fichiers extraits.}

pdfimages.exe ^
    -j ^
    -f 11 ^
    -l 13 ^
    c:\path\to\your.pdf ^
    c:\path\to\where\you\want\images\prefix\

Comme auparavant, mais l'extraction des images est limitée aux pages 11 ('f' = premier) à 13 ('l' = dernier).

Mise à jour:

En attendant, je préfère la version de Poppler, enpdfimages particulier depuis l’acquisition de cette nouvelle fonctionnalité: ajouter -listà la ligne de commande afin de simplement lister (ne pas extraire) les images contenues dans le PDF, ainsi que certaines de leurs propriétés. Exemple:

pdfimages -list -f 7 -l 8 ct-magazin-14-2012.pdf

  page num type largeur hauteur couleur comp bpc enc interp ID d'objet
  -------------------------------------------------- -------------------
     7 0 image 581 838 RGB 3 8 Jpeg no 39 0
     7 1 image 4 4 rgb 3 8 image no 40 0
     7 2 image 314 332 RGB 3 8 jpx no 44 0
     7 3 image 358 430 RGB 3 8 jpx no 45 0
     7 4 image 4 4 rgb 3 8 image no 46 0
     7 5 image 4 4 rgb 3 8 image no 47 0
     7 6 image 4 6 rgb 3 8 image no 48 0
     7 7 image 596 462 RGB 3 8 jpx no 49 0
     7 8 image 4 6 rgb 3 8 image no 50 0
     7 9 image 4 4 rgb 3 8 image no 51 0
     7 10 image 8 10 rgb 3 8 image no 41 0
     7 11 image 6 6 rgb 3 8 image no 42 0
     7 12 image 113 27 rgb 3 8 jpx no 43 0
     8 13 image 582 839 gris 1 8 jpeg no 2080 0
     8 14 image 344 364 gris 1 8 jpx no 2079 0

Notez encore: cette version pdfimagesest celle de Poppler (celle de XPDF ne supporte pas (encore?) Cette nouvelle fonctionnalité), et la version doit être v0.20.2 ou plus récente.

— Kurt Pfeifle
source

1

@harlev: Google pour ImageMagick . Il a un outil en ligne de commande qui peut convertir n'importe quoi en quelque chose appelé convert. Disponible pour Linux, Windows, MacOS X et ainsi de suite. Cas d' utilisation pour plus facile vous: convert some.ppm some.jpeg.

— Kurt Pfeifle le

3

Remarque: XPDF n’est pas aussi activement maintenu que la bibliothèque poppler qui en a été extraite il ya quelque temps. Poppler fournit pdfimageségalement, et certaines personnes pourraient préférer l'utiliser.

— MvG

1

@BurhanKhalid: Les binaires pré-construits sont ici: sourceforge.net/projects/poppler-win32

— Kurt Pfeifle

2

@KurtPfeifle Malheureusement, ceux-ci ne contiennent aucun fichier exe.

— Chris

3

Je sais que c'est vieux, mais je voulais juste le partager si quelqu'un est à la recherche de binaires Windows, vous pouvez le trouver ici. Blog.alivate.com.au/poppler-windows

— Aivan Monceller 11/02/2017

8

Vous pouvez essayer d'importer le fichier PDF dans Inkscape et travailler à partir de là. Inkscape n'ouvrira qu'une page à la fois, mais vous donnera un contrôle total sur le contenu de la page. Vous pourrez extraire et manipuler des graphiques vectoriels à partir du PDF assez facilement.

Cependant, si vous souhaitez extraire des images raster du PDF, je suis presque sûr que pdfimagesXPDF est plus facile (vous pouvez quand même essayer d'utiliser Inkscape après avoir appris à extraire des images incorporées à partir de fichiers SVG ).

— Denilson Sá Maia
source

GIMP ( gimp.org ) est un autre outil de conception graphique capable d'importer et de manipuler des fichiers PDF. Je ne sais pas cependant comment les capacités des GIMP contrastent avec celles d'Inkscape.

— coderworks

@coderworks: GIMP pixellise la page PDF importée dans une résolution donnée. En d’autres termes, c’est légèrement mieux que d’utiliser "Imprimer l’écran". Inkscape, quant à lui, préservera les données vectorielles d'origine ainsi que les images raster d'origine.

— Denilson Sá Maia

5

Sans installer de logiciel, vous pouvez passer à PDF-XChange Viewer (sélectionnez Version portable ), qui dispose déjà de cette possibilité.

exporte toutes les pages sélectionnées
format de sortie: PNG, JPG, TIFF, BMP
choisissez DPI, niveau de compression, échelle de gris
peut enregistrer plusieurs pages au format TIFF multipage

^{Cliquez pour agrandir}

Notez que lorsque cette méthode convertit des pages PDF entières en images, la méthode expliquée à partir de @Laurenz à l' aide de Sumatra PDF est supérieure si vous souhaitez extraire des images d'une page PDF avec un contenu mixte (image + texte) pour obtenir uniquement l'image.

— Nixda
source

2

@ MarkSeemann je ne peux pas suivre. "Sans installer de logiciel" signifie dans ce contexte qu’une version portable est disponible. Les logiciels portables ne peuvent pas être "installés" par définition. Vous venez de télécharger, d'extraire et de le démarrer.

— nixda

3

Le fait que vous ayez besoin de "Choisir le DPI" va à l'encontre de l'objectif recherché. Vous redimensionnez des images raster (matrice de pixels) et tout redimensionnement d'une image raster entraîne une perte de qualité et d'informations.

— anthony

convertir des fichiers PPM en png ou jpeg?

— Kiquenet le

4

Sumatra PDF est un lecteur PDF open source rapide et léger, capable de copier des images directement dans le Presse-papiers, sans aucune nouvelle numérisation.

— Laurenz
source

3

MuPDF est une nouvelle visionneuse PDF multiplateforme (ordinateurs de bureau et mobiles) (créée en 2006) publiée sous licence AGPL. Il est maintenu par les mêmes personnes de Ghostscript .

Il contient un outil de ligne de commande permettant d’extraire des images d’un fichier PDF:

mutool extract [options] file.pdf [object numbers]

La commande extraire peut être utilisée pour extraire des images et des fichiers de polices d’un fichier PDF. Si aucun numéro d'objet n'est donné sur la ligne de commande, toutes les images et les polices seront extraites.

-p password
       Use the specified password if the file is encrypted.

-r     Convert images to RGB when extracting them.

— Denilson Sá Maia
source

2

utiliser pdftocairode poppler toolkit. Il peut extraire et convertir des images de pdf au format souhaité. Il génère toujours des images et ne génère jamais de ppm ou de craps comme ça. La commande suivante convertit les pages pdf en images jpg:

pdftocairo.exe -jpeg "my.pdf" "my"

Vous pouvez l'obtenir d'ici pour Windows: http://blog.alivate.com.au/poppler-windows/

Il est également disponible sur Linux.

— MSS
source

Cette commande N'EXTRACTE PAS les images incorporées dans un PDF (comme l'OP l'a demandé). À la place, il convertit des pages PDF complètes en formats d'image. Cette réponse ne correspond pas à la question posée.

— Kurt Pfeifle

1

http://www.sumnotes.net/ est un outil en ligne permettant d'extraire des notes, des points forts et des images. Je l'ai beaucoup utilisé à l'université pour ma thèse et j'étais vraiment satisfait.

— Timothée
source

Commercial avec essai gratuit limité. C'est aussi en ligne, ce qui signifie que la vie privée ne peut être garantie!

— anthony

-1

normalement, j'extrais l'image incorporée avec 'pdfimages' à la résolution native, puis j'utilise Convert au format souhaité: ImageMagick:

$ pdfimages -list fileName.pdf
$ pdfimages fileName.pdf fileName   # save in .ppm format
$ convert fileName-000.ppm fileName-000.png

cela génère le meilleur et le plus petit fichier de résultats.

Remarque: pour les images incorporées avec perte au format JPG, vous deviez utiliser -j:

$ pdfimages -j fileName.pdf fileName   # save in .jpg format

Sur la plate-forme Win peu fournie, vous deviez télécharger un binaire récent (0.37, 2015) 'poppler-util' à partir de: http://blog.alivate.com.au/poppler-windows/

MISE À JOUR: Sur les dernières versions de "poppler-util" 0.50+ (2016), pdfunite dispose d'une option "-all" permettant d'extraire un bitmap compressé sans perte au format .png et un compressé au format bitmap compressé avec perte au format .jpg.

$ pdfimages -all fileName.pdf fileName

extraire toujours du contenu PDF de la meilleure qualité possible

— Valerio
source

Était précédemment dans la réponse de Kurt Pfeifle.

— daniel.neumann