Comment rechercher du texte dans un fichier PDF


2

Je voudrais rechercher du texte dans un fichier PDF. Par exemple, où se trouve le mot "aller à" dans mon PDF? Si vous le trouvez, quelle page y a-t-il?

Je trouve cette ligne de commande:

find /TEMP -name 'manu.pdf' -exec pdftotext {} - \; | grep "go to"

Il en résulte des éléments.

J'aimerais avoir le numéro de page de mon résultat. Comment récupérer cet article?

Réponses:


7

pdfgrep semble faire cela. De la page de manuel :

-n, --page-number
Prefix each match with the number of the page where it was found.

Merci beaucoup, désolé pour ce sujet, j'aurais dû voir cette page!

Désolé, mais pdfgrep n'est pas installé sur mon serveur. J'installe poppler-utils mais je ne peux pas installer pdfgrep. Donc, je n'ai aucun résultat

Pourquoi ne pouvez-vous pas installer pdfgrep?
Kai Sternad

Sur Centos 5.7 et Ubuntu 9.10: apt-get (ou yum) installe pdfgrep: Aucun paquet pdfgrep n'est disponible. Je télécharge le fichier 1.3.0.tar.gz, unzip, ./configure: configure: error: La configuration requise pour le package (poppler-cpp) n'était pas remplie: aucun package 'poppler-cpp' n'a été trouvé. Je ne peux rien faire

Pdfgrep est disponible à partir d’Ubuntu 10.10. Je viens de l'installer avec succès dans une machine virtuelle Ubuntu 11
Kai Sternad

1

Par défaut, pdftotext insère des caractères de formulaire (0xC) entre les pages. Vous pouvez les compter jusqu'à l'apparition du mot que vous recherchez.

Une autre façon consiste à utiliser l' bboxoption:

 Generate an XHTML file containing bounding box information for each word in the file.

Ici, chaque mot est enfermé dans un pageconteneur. Vous pouvez donc prendre l'index + 1 de pagevotre mot en tant que numéro de page


Avez-vous un exemple pour l'obtenir?

1

Recoll peut rechercher des documents PDF. Il dispose d'un mode de ligne de commande, mais l'interface graphique sera plus utile pour détailler l'emplacement des correspondances et vous permettra de cliquer sur Ouvrir le document au bon endroit.

En utilisant notre site, vous reconnaissez avoir lu et compris notre politique liée aux cookies et notre politique de confidentialité.
Licensed under cc by-sa 3.0 with attribution required.