J'ai un fichier PDF contenant les plans du bâtiment dans lequel je travaille, ici:
http://www.libsys.und.edu/dev/FloorPlans_All.pdf
Les fichiers source d'origine ont été perdus et on m'a demandé d'extraire les images de la carte, de préférence sans le texte et les icônes qui ont été superposés dessus. Cela s'est avéré extrêmement difficile.
Jusqu'à présent, j'ai essayé les programmes GUI suivants:
- Adobe Reader: me permet de sélectionner du texte, mais pas les images d'arrière-plan
- FoxIt PDF Viewer: permet de sélectionner du texte, mais pas les images d'arrière-plan
- XPDF sur Ubuntu 10.10: permet de sélectionner le texte, mais pas les images d'arrière-plan
Et aussi les programmes de ligne de commande suivants:
- pdfimages: extrait très bien les icônes indiquant les salles de bain, mais pas les images d'arrière-plan
- pdftohtml: identique à pdfimages, en plus il fait un document HTML mal balisé
- pdfextract: identique à pdfimages
- convertir: images enregistrées avec succès, mais avec le texte gravé en elles
J'ai même essayé d'ouvrir le PDF manuellement dans un éditeur de texte et d'extraire les objets de flux en les collant dans un nouveau fichier et en l'enregistrant avec une extension .jpg, .png ou .bmp (chacun à son tour). Compte tenu du peu que je connais sur la structure interne des fichiers PDF, il n'est pas surprenant que cela n'ait pas fonctionné.
Alors ... est-il possible de récupérer les images de la carte à partir de cette chose sans obtenir le texte et les icônes?
qpdf
pour convertir les parties binaires en ASCII autant que possible. (2) Utilisez un éditeur de texte pour rendre tout le texte invisible que je ne veux pas voir à l'écran ou sur les impressions (peut être réalisé facilement et sans endommager la table XRef en basculant le drapeau invisible ). (3) Redistillez le résultat avec Ghostscript pour réduire sa taille autant que possible. - Malheureusement, votre fichier n'est plus téléchargeable pour illustrer la procédure ...