Convertir l'image en texte


8

J'ai obtenu un document image numérisé de la banque et je souhaite le convertir en document texte normal avec des images dans Ubuntu.

Existe-t-il un outil pour cela?

Réponses:


15

Il existe un certain nombre de lecteurs OCR pour Linux qui peuvent convertir une image en texte. Regardez les options suivantes:

Tous les éléments ci-dessus, à l'exception d'ocropus, sont présents dans le référentiel Ubuntu dans un package du même nom.

Différents lecteurs prennent en charge différents formats d'image, vous pouvez donc être limité dans vos options par le format de fichier dans lequel se trouve votre document. Alternativement, vous pouvez utiliser l' outil de conversion d'ImageMagick pour changer le format si vous souhaitez utiliser un lecteur OCR particulier.

Adapté de ma réponse ici .


0

Vous devez d'abord installer "tesseract-ocr" sur votre machine Linux.

sudo apt-get install tesseract-ocr

Vous pouvez le faire manuellement depuis CLI ou j'ai fait du code PHP pour le même, vous pouvez l'utiliser si vous le souhaitez.

Remarque: pour exécuter ce code, la commande exec doit être activée dans php.ini

<?php
//IMAGE TO TXT Conversion
    $input_file = $_REQUEST['input_file'];
    $out = explode(".",$input_file);

    $output_file = $out[0]."_".$out[1];
    $output_file_name  =    $output_file.".txt";

    echo "<br />----IMAGE To TXT conversion Started-----</br />";
    echo  exec('tesseract '.$input_file.' '.$output_file);
    echo "<br />----TXT conversion Done-----</br />";

    echo "<br /><b>Please Check----->".$output_file.".txt</b><br />";
    echo "Click <a target='_blank' href='".$output_file_name."'>Here </a>to view it<br />"; 
?>

mettre ce code dans le dossier racine et y accéder depuis le navigateur,

par exemple :

http://yourserver.com?input_file=1.png

Remarque: le fichier 1.png doit être présent dans votre répertoire actuel.

Je n'ai pas le droit de télécharger l'image, j'ai utilisé cette image pour référence, http://plone.org/documentation/kb-old/copy_of_ocr-in-plone-using-tesseract-ocr/phototest.gif/image_preview

En utilisant notre site, vous reconnaissez avoir lu et compris notre politique liée aux cookies et notre politique de confidentialité.
Licensed under cc by-sa 3.0 with attribution required.