J'ai un certain nombre de documents numérisés en pdf et je veux pouvoir les rechercher. Comment puis je faire ça?
Essentiellement, je dois OCR le pdf, puis mélanger le texte extrait dans un nouveau pdf. J'ai essayé sans succès un certain nombre de solutions différentes (y compris celles trouvées dans Ajouter des informations OCR à un PDF ).
- pdfocr (qui me donne ce numéro: https://github.com/gkovacs/pdfocr/issues/7 )
- pdfsandwich (dont le centre logiciel dit que c'est un mauvais paquet et que je ne devrais pas l'installer)
- OCRfeeder (dans le centre du logiciel) exporte bien vers odt, mais ne réagit pas lors de l'exportation au format PDF.
- Gscan2pdf exporte une image entièrement noire (mais consultable) comme indiqué dans cette discussion .
- Je ne pense pas que la visionneuse Pdfxchange puisse gérer faire ocr à la volée sur des fichiers de plus de 500 pages.
Existe-t-il un progiciel que je ne connais pas? Ou un script qui fait ça?
pdf2searchablepdf
. Cela dépend tesseract
. Ça marche bien. Super facile à utiliser. Vois ici. askubuntu.com/a/1187881/327339