rechercher des PDF avec des encodages de caractères non standard


19

Certains fichiers PDF produisent des ordures (" mojibake ") lorsque vous copiez du texte (même s'ils sont rendus OK). Cela rend impossible leur recherche (tout ce que vous recherchez ne correspondra pas aux ordures).

Quelqu'un at-il une solution de contournement facile?

Exemples:

  1. Manuel TEAC TV EU2816STF ( génère les problèmes ci-dessus dans Adobe Reader sur Windows et sur Mac, mais fonctionne correctement dans Aperçu sur Mac)
  2. Manuel Leadtek Winfast PVR2 (lien FTP; a également des problèmes dans Aperçu sur un Mac)
  3. Manuel de la carte tuner TV Swann (lien FTP; a également des problèmes dans Aperçu sur un Mac)
  4. Contrat de licence Phonedisc (du DTMS aujourd'hui disparu )
  5. Revue trimestrielle du fonds Macquarie IFP
  6. Livret BAN-TACS pour les petites entreprises (version archivée)
  7. Dépliant de la fête de Pâques 2004 (également tiré des archives)

J'utilise Adobe Reader (dernière version) pour Windows - peut-être qu'une autre visionneuse pourrait aider? Je recherche une solution gratuite pour Windows. L'open-source serait encore mieux.

Edit: Les documents de l' outil Multivalent Extract Text ont un bon résumé des raisons pour lesquelles les choses peuvent mal se passer, y compris: (document cité dernière modification janvier 2006)

  • Le texte peut ne pas avoir de mappage Unicode. Les polices PDF de type 3 n'en ont souvent pas, et TeX DVI a des caractères qui n'ont pas d'équivalents Unicode.
  • L'encodage Unicode peut être bogué. Open Office mappe certains caractères dans le même Unicode, ce qui entraîne la chute et le doublement des lettres apparentes.

Je suppose que la solution ultime dans ces cas serait d'OCR chaque glyphe dans une police pour comprendre de quel caractère il s'agit vraiment. Notez que cela serait plus facile que d'OCRer un document numérisé bruyant car la forme exacte du glyphe est disponible (à une résolution infinie car c'est une image "vectorielle").


En utilisant clipbrd.exe(voir mydigitallife.info/2008/11/06/… ), vous pouvez voir ce qui est dans le presse-papiers. Qu'est-ce que cela vous donne?
Arjan

@Arjan van Bentem: cela me donne exactement les mêmes ordures que j'obtiens en collant dans le Bloc-notes.
Hugh Allen

Des détails sur le format? Je suis sur un Mac, mais je suppose que Windows vous dirait si quelque chose est une image ou du texte, puis pour le texte, peut-être aussi révéler quelque chose sur l'encodage?
Arjan

Pour l'exemple du manuel du téléviseur: même problème dans Adobe Reader 8.1.2 sur un Mac, mais aucun problème lors de l'utilisation de l'aperçu du Mac pour copier ou rechercher du texte. Ses propriétés de document affichent "Encoding: Custom" pour les polices (voir img.skitch.com/20100318-827uckkb5i326eta291f3qig3u.png ). D' autres documents PDF montrer des choses comme « Codage: Ansi » ou « romain » et ont aucun problème dans Adobe Reader sur un Mac (comme adobe.com/education/pdf/type_primer.pdf rendements img.skitch.com/20100318-tbyjrny9bsg684eqhr7b3au7fb.png ).
Arjan

1
En outre, pdftextonline.com ne peut pas récupérer le texte du manuel du téléviseur ni du document Phonedisc (n'a pas essayé les autres). Mais envoyer à Gmail, puis l' affichage HTML fait le travail pour le manuel TV (comme Preview n'a pas de problème avec ce document) ...
Arjan

Réponses:


3

Foxit Reader , peut-être?

Pour ce que ça vaut, je viens de vérifier le PDF auquel vous avez lié avec Safari 4.0.4 sur Mac OS X 10.6.2 et bien qu'il existe un peu d' Engrish , le PDF qu'il restitue parfaitement sans aucune "poubelle" à l'écran. Vous rencontrez peut-être des problèmes Unicode (plus courants sous Windows que Mac OS)?


Les ordures ne sont pas à l'écran - elles sont dans le presse-papiers lorsque je copie du texte. Que vous arrive-t-il lorsque vous essayez?
Hugh Allen

@Hugh: Caractéristiques 􏰃 Il s'agit d'un téléviseur couleur télécommandé. 􏰃 100 programmes de bandes VHF, UHF ou chaînes câblées peuvent être préréglés. 􏰃 Il peut régler les chaînes du câble. 􏰃 Le contrôle du téléviseur est très facile grâce à son système piloté par menu. 􏰃 Il a trois prises Euroconnector pour les périphériques externes (tels que ordinateur, vidéo, jeux vidéo, ensemble audio, etc.)
Alex

@ Hugh: Les balles ne copient pas correctement, mais le reste l'est. Avec quelle section / page / paragraphe en particulier avez-vous un problème, et je vais essayer?
Alex

Tout. J'utilise Adobe Reader pour Windows. Je viens de mettre à jour la dernière version qui n'a pas aidé. +1 merci pour l'info. Je suppose qu'Adobe Reader a un bug non partagé par l'équivalent OSX.
Hugh Allen

4
J'ai essayé Foxit Reader et il a le même problème. Son programme d'installation est également très intrusif, souhaitant installer une barre d'outils, modifier votre page d'accueil, etc. :(
Hugh Allen

3

Le moyen le plus simple de contourner ce problème consiste à ouvrir le fichier dans une version récente de Google Chrome avec un plug-in de lecture PDF intégré . Ensuite, vous pouvez utiliser la fonction de recherche de Chrome pour trouver du texte et le copier-coller fonctionne correctement.


2

Pour l'exemple du manuel TV : même problème dans Adobe Reader 8.1.2 sur un Mac, mais aucun problème lors de l'utilisation de l'aperçu de Mac pour copier ou rechercher du texte. De plus, en l'envoyant à un compte Gmail, puis en choisissant «Afficher» puis «HTML brut», le texte apparaît. Mais Adobe Reader ne l'aime pas.

Ses propriétés de document affichent "Encoding: Custom" pour les polices. Un autre document montre des choses comme "Encoding: Ansi" ou "Roman", et n'a aucun problème dans ni Aperçu ni Adobe Reader sur un Mac:

entrez la description de l'image ici

entrez la description de l'image ici

Cependant, les exemples Leadtek et Swann posent également des problèmes dans Aperçu sur Mac et dans Gmail, et les deux affichent "Encoding: Identity-H". Le test Phonedisc échoue également, avec "Encoding: Custom".

Confus et pas cohérent, mais sur certains forums Adobe, j'ai trouvé l'explication suivante pour un autre exemple qui montre "Encoding: Custom" (c'est moi qui souligne):

Après avoir regardé à l'intérieur du PDF, il s'avère qu'aucune information d'encodage utilisable n'est présente (ni dans le PDF ni dans les données de police incorporées) pour dériver la signification des caractères / glyphes affichés sur les pages du document.

Les polices sont en fait toutes intégrées, mais d'une manière telle que toutes les informations d'encodage ont été supprimées. Il s'agit d'un exemple typique d'un PDF qui est syntaxiquement entièrement conforme à la spécification PDF mais où des informations importantes sur la signification du texte qu'il contient ont été jetées pendant le processus de création du PDF. Autant que je sache, il serait très difficile de récupérer les informations d'encodage.

Cela n'explique pas pourquoi l'aperçu de Mac (et apparemment Infix également) peut gérer certains des exemples lorsque Adobe Reader échoue, même avec "Encoding: Custom". Peut-être que l'aperçu n'a aucun problème lorsque la police exacte se trouve sur l'ordinateur lui-même? Ou peut-être est-ce juste de deviner un encodage, qui fonctionne pour certains mais pas pour tous les documents?

Quelle que soit la cause de cela: si le passage via Google Docs ou Gmail ne fonctionne pas, alors la solution de contournement la plus simple (mais loin d'être facile) est en effet d'enregistrer au format TIFF, puis de procéder à l' OCR . Des services comme Evernote pourraient le faire à la volée (il effectue l'OCR sur les images; je doute qu'il fasse l'OCR sur un PDF).


-1

Le téléchargement du fichier 1 a échoué pour moi, le fichier 2 que j'ai pu ouvrir avec xpdf, un visualiseur pdf rapide et open-source. Je suppose qu'il ne peut pas gérer les formulaires, mais pour le texte pur et graphique, je le préfère pour son temps de démarrage rapide.


1
La question ne portait pas sur "l'ouverture" des PDF, ni sur "l'ouverture avec un temps de démarrage rapide". Au lieu de cela, il s'agissait de ne pas pouvoir copier / coller des extraits de texte à partir des pages rendues. Votre réponse est donc probablement bonne, mais ne correspond pas à cette question.
Kurt Pfeifle

-2

Malheureusement, cela ne peut être aidé. Les documents PDF ne contiennent en fait aucune lettre, mais ils contiennent des formes de lettres. En d'autres termes, au lieu de lire une lettre et de la dessiner sur l'écran Adobe Reader comme toute autre application de lecture PDF dessinerait simplement les graphiques vectoriels encodés dans le fichier.

Cependant, certains lecteurs PDF sont livrés avec un logiciel qui permet d'analyser la forme et de récupérer le texte en utilisant la reconnaissance de texte. Cela fonctionne comme si vous numérisiez un papier de texte imprimé et utilisiez un logiciel comme ABBYY FineReader pour le reconvertir en texte, mais en raison de la qualité infiniment élevée des dessins vectoriels, les résultats sont généralement bien meilleurs que pour les documents numérisés.

Certains documents peuvent être protégés contre la conversion en texte en trompant Adobe Reader. Par exemple, les lettres peuvent être dessinées sous plusieurs formes qui se chevauchent de telle sorte qu'elles soient visuellement toujours identiques, tandis que le logiciel de reconnaissance de texte ne reconnaîtra pas le texte. Votre document est un exemple d'une telle protection.

Une façon serait d'imprimer le document dans une image et de laisser le logiciel de reconnaissance de texte le reconnaître. Une résolution plus élevée de l'image améliorera la qualité. Cette méthode n'est cependant pas vraiment pratique.


2
Les documents PDF ne contiennent en fait aucune lettre - ce n'est pas vrai pour la plupart des documents non numérisés; voir en.wikipedia.org/wiki/Portable_Document_Format#Text
Arjan

Je vous remercie. Une information intéressante. J'ai toujours pensé qu'il n'y avait aucune information sur le texte en PDF. Néanmoins, il semble que le document fourni par Alexander n'ait pas de texte intégré. Ou il est également possible que la police qui y est utilisée ait un codage étrange des caractères, c'est-à-dire qu'ils ne correspondent pas au codage ASCII typique.
Sergiy Belozorov

2
Comment aurais-je pu copier le texte du PDF s'il ne s'agissait que de formes? Vous avez en partie raison - il n'est pas tramé dans le PDF (sauf s'il provient d'une source numérisée), mais les données texte SONT incluses. Cependant, les polices sont (généralement) également intégrées, permettant au texte inclus d'être rendu vectoriel.
Alex
En utilisant notre site, vous reconnaissez avoir lu et compris notre politique liée aux cookies et notre politique de confidentialité.
Licensed under cc by-sa 3.0 with attribution required.