Mais comment est-ce possible?
Fondamentalement, un programme effectue l'OCR sur le fichier d'entrée, puis il place une couche de texte invisible sur l'image. Alternativement, il peut également placer une couche visible de texte sous l'image, donnant le même effet.
Lorsque vous sélectionnez quelque chose, l'image n'a pas d'importance car le calque de texte est sélectionné.
comment cela peut-il être créé?
Il y a plusieurs façons. Étant donné qu'Acrobat a déjà été suggéré, j'ajouterai quelques options gratuites (et heureusement, vous n'êtes pas obligé d'avoir Windows pour les utiliser).
PDF-XChange Viewer
Il s'agit d'un programme Windows natif de Tracker Software . La version freeware fonctionne correctement sous Wine si vous utilisez l'édition 32 bits dans un préfixe 32 bits, vous pouvez donc l'utiliser sur Windows, macOS et Linux. Dans les deux derniers cas, vous auriez besoin respectivement de PlayOnMac ou PlayOnLinux.
Voici une image de cette réponse que j'ai laissée sur Ask Ubuntu:
OCRmyPDF
Il s'agit d' un programme multiplateforme écrit en Python , basé sur Ghostscript, Tesseract et Unpaper. De la documentation:
Que fait OCRmyPDF
OCRmyPDF analyse chaque page d'un PDF pour déterminer l'espace colorimétrique et la résolution (DPI) nécessaires pour capturer toutes les informations sur cette page sans perdre de contenu. Il utilise Ghostscript pour pixelliser la page, puis effectue une reconnaissance optique de caractères sur l'image tramée pour créer une «couche» OCR. Le calque est ensuite greffé sur le PDF d'origine.
Il peut être facilement installé sur les dérivés Debian et Ubuntu:
apt-get install ocrmypdf
Ou sur macOS:
brew tap jbarlow83/ocrmypdf
brew install ocrmypdf
Sous Windows, vous devez utiliser l'image Docker. Voir les documents officiels pour plus de détails.
L'utilisation est très simple et je vous suggère d'utiliser les -d
paramètres optionnels (redressement) et -c
(nettoyage) pour de meilleurs résultats. Il redressera chaque page et nettoiera les petits points / imperfections avant d'exécuter le processus OCR.
Vous pouvez (et devez) fournir la langue -l
.
Voici un exemple tiré de ce document asymétrique écrit en italien:
La commande que j'ai utilisée était:
ocrmypdf -l ita -d -c input.pdf output.pdf
Outils en ligne
Il existe quelques outils en ligne qui font de même. Remarquable, PDF24 héberge une version Web gratuite d'OCRmyPDF qui peut être utilisée sans limitations.
Voir également: