Certains fichiers PDF produisent des ordures (" mojibake ") lorsque vous copiez du texte (même s'ils sont rendus OK). Cela rend impossible leur recherche (tout ce que vous recherchez ne correspondra pas aux ordures).
Quelqu'un at-il une solution de contournement facile?
Exemples:
- Manuel TEAC TV EU2816STF ( génère les problèmes ci-dessus dans Adobe Reader sur Windows et sur Mac, mais fonctionne correctement dans Aperçu sur Mac)
- Manuel Leadtek Winfast PVR2 (lien FTP; a également des problèmes dans Aperçu sur un Mac)
- Manuel de la carte tuner TV Swann (lien FTP; a également des problèmes dans Aperçu sur un Mac)
- Contrat de licence Phonedisc (du DTMS aujourd'hui disparu )
- Revue trimestrielle du fonds Macquarie IFP
- Livret BAN-TACS pour les petites entreprises (version archivée)
- Dépliant de la fête de Pâques 2004 (également tiré des archives)
J'utilise Adobe Reader (dernière version) pour Windows - peut-être qu'une autre visionneuse pourrait aider? Je recherche une solution gratuite pour Windows. L'open-source serait encore mieux.
Edit: Les documents de l' outil Multivalent Extract Text ont un bon résumé des raisons pour lesquelles les choses peuvent mal se passer, y compris: (document cité dernière modification janvier 2006)
- Le texte peut ne pas avoir de mappage Unicode. Les polices PDF de type 3 n'en ont souvent pas, et TeX DVI a des caractères qui n'ont pas d'équivalents Unicode.
- L'encodage Unicode peut être bogué. Open Office mappe certains caractères dans le même Unicode, ce qui entraîne la chute et le doublement des lettres apparentes.
Je suppose que la solution ultime dans ces cas serait d'OCR chaque glyphe dans une police pour comprendre de quel caractère il s'agit vraiment. Notez que cela serait plus facile que d'OCRer un document numérisé bruyant car la forme exacte du glyphe est disponible (à une résolution infinie car c'est une image "vectorielle").
clipbrd.exe
(voir mydigitallife.info/2008/11/06/… ), vous pouvez voir ce qui est dans le presse-papiers. Qu'est-ce que cela vous donne?