Comment sélectionner tous les fichiers PDF contenant un mot particulier?


1

J'ai 5000 fichiers PDF dont 500 sont importants, le reste est inutile. Il y a un mot présent dans chaque fichier 500 qui n'est pas présent dans les autres fichiers 4500. J'ai effectué plusieurs recherches dans les fichiers et appris que je ne pouvais pas sélectionner les 500 fichiers PDF à partir du résultat de la recherche dans Adobe Reader. Existe-t-il un autre moyen de sélectionner plusieurs fichiers PDF contenant un mot particulier?


Les PDF ne contiennent que des mots et pas d'images
Anand

Existe-t-il une uniformité parmi les fichiers PDF? Le nombre de pages est-il cohérent? Sont-ils tous le même formulaire, juste rempli avec des informations uniques? Le mot clé apparaît-il au même endroit dans chacun des 500 résultats? Si tel est le cas, vous pouvez les combiner en un seul fichier PDF géant, puis rogner les pages de manière à ne contenir que la zone pouvant contenir ou non le mot clé. Cela vous laisserait un pool de texte beaucoup plus facile à gérer dans lequel les numéros de page correspondraient aux fichiers non modifiés. Vous pourrez peut-être même l'exporter vers Excel pour le déterminer de cette façon.
P Fitz

Quand vous dites "recherche de plusieurs fichiers", faites-vous référence à la fonction de recherche avancée de Reader (Ctrl + Alt + F)?
P Fitz

Pourriez-vous nous expliquer comment les fichiers PDF ont été générés? Vous pouvez utiliser un outil tel que pdfTK pour décoder et décomposer les fichiers PDF s'ils ont été générés directement à partir de documents texte.
David

Que se passe-t-il lorsque vous regardez vos PDF dans le bloc-notes? Pouvez-vous effectuer une recherche dans le document texte avec la fonction de recherche du bloc-notes?
David

Réponses:


1

Vous avez trois options principales

Option 1:

Obtenez vos 5000 pdfs. Créez 10 dossiers sur 500. Exécutez 10 recherches individuelles.

Option deux:

La recherche Windows (définitivement 10, pas sûr mais vaut le coup) fonctionne par le biais de fichiers PDF. Allez simplement dans votre dossier, tapez votre mot-clé, tous les fichiers pertinents doivent être retournés.

Troisième option:

Des bibliothèques comme iTextSharp vous permettraient d’obtenir le texte d’un document sous une forme similaire à C #. Vous pouvez parcourir tous les documents et en faire ce dont vous avez besoin, en supposant que vous puissiez utiliser C #.

Apparemment, FoxIt reader donne une recherche similaire à travers la fonction de dossier - je ne sais pas si cela est limité à 500 également.


1
Il convient de noter que toutes ces options nécessitent que le fichier PDF soit analysable / consultable. De nombreux PDF ne sont pas, en particulier ceux qui proviennent d'un document numérisé sans OCR de haute qualité. Si vous pouvez sélectionner du texte avec votre souris, alors le document devrait fonctionner, mais si vous ne pouvez pas sélectionner de mots discrets, le document est inaccessible. Il y a quelques années, j'ai dû créer un référentiel de documents, avec indexation. Nous avons donc utilisé PDFBox avec IKVM.Net pour extraire le texte à indexer, mais nous avons dû imprimer et numériser de nombreux documents. sinon, ils ressemblaient à une photo de l'original.
Frank Thomas

Oui, désolé, supposons à l'aveuglette que le texte était du texte réel et non une image ou un codage impair. Ce commentaire est certainement important, si les documents sont numérisés, sans logiciel OCR intelligent, vous n'aurez aucune chance.
Jonno

(Je pense) Les versions plus récentes d'Adobe reader intègrent la ROC. Elles effectuent donc une recherche dans les PDF composés uniquement d'images incorporées. Canon, Kryocera, Epson). J'ai certainement pu effectuer une recherche parmi les PDF basés sur des images au travail généré par nos scanners Konica, et les PDF ne sont que des JPG incorporés lorsqu'ils sont visualisés par Adobe Reader.
David

0

J'ai résolu le même problème en ce qui concerne la recherche dans des milliers de fichiers PDF et l'utilisation de ceux contenant une chaîne particulière. Total Commander avec le plugin xPDFSearch a fait l'affaire pour moi. Le plugin améliore les capacités de recherche de Total Commander pour permettre la recherche dans les méta-balises PDF ou même une recherche en texte intégral.

Total Commander est également disponible en Shareware, mais si vous l'aimez, contribuez à l'auteur de ce brillant manager.


Pensez à ajouter plus d'informations sur la manière dont les logiciels que vous avez recommandés peuvent résoudre la question de OP, ainsi qu'un bref résumé de ce qu'ils font. Pour plus d'informations: meta.superuser.com/questions/5329/…
Vylix

Êtes-vous, par hasard, l'auteur de Total Commander, ou un ami proche, un membre de votre famille ou un associé? Parce que si vous l'êtes, vous devez le dire.
Scott

@Vylix J'ai prolongé un peu la réponse, j'espère correctement.
Cryfcad

@ Scott Je n'ai aucun lien avec l'auteur, je l'aime vraiment, je l'utilise depuis plus d'une décennie.
cryfcad
En utilisant notre site, vous reconnaissez avoir lu et compris notre politique liée aux cookies et notre politique de confidentialité.
Licensed under cc by-sa 3.0 with attribution required.