Extraire le texte OCR d'Evernote


13

Evernote effectue l'OCR sur les images que vous y enregistrez. Existe-t-il un moyen d'obtenir l'équivalent en texte intégral d'une image dans Evernote, ou l'OCR est-il uniquement destiné à la recherche?

Réponses:


15

L'API Evernote a des fonctionnalités pour obtenir du texte et un rectangle où ce texte est présent à l'intérieur de l'image. Voir http://evernote.com/about/developer/api/evernote-api.htm , consultez «Format XML Evernote Recognition Index» et les fonctions pour le récupérer. Le problème est qu'ils ne font pas d'OCR traditionnel ... leur algorithme d'OCR peut produire des mots différents pour un seul "mot" sur l'image. Tout ce qu'ils utilisent pour la recherche, c'est bien pour eux, mais pas pour l'utiliser comme moteur de reconnaissance. (Bien qu'ils vous donnent du poids pour chaque mot alternatif, vous pouvez peut-être l'utiliser)


11

De plus, Evernote ne décide apparemment pas qu'une image particulière est équivalente à exactement un mot - par exemple, Evernote ne détermine pas qu'une image particulière est "un indice" et n'est pas "due". Au contraire, il suivra les deux, et une recherche pour l'un ou l'autre retournerait la même image. Par conséquent, il n'y a aucun moyen d'obtenir un équivalent en texte intégral car Evernote ne décide pas ce qu'est réellement le texte intégral, mais seulement ce qu'il pourrait être.


5

evernote paie une somme décente au créateur de l'ocr-stuff OU a payé une somme décente pour que quelque chose fonctionne ensemble. ainsi, je doute vraiment qu'ils vous permettront d'obtenir le texte extrait (+ positionnement sur l'image).

(pourrait être un modèle commercial, pour numériser les images d'autres personnes et fournir un bon ocr :))

donc la réponse est non.


3
Ce n'est pas vrai. Il existe une API pour obtenir exactement ces informations. Voir ma réponse.
Peter Štibraný

2

Je ne sais pas combien de sophistication vous avez besoin, mais comme j'utilise également Adobe Acrobat, je fais juste un clic droit sur ma pièce jointe Evernote pour l'ouvrir avec Acrobat.

Ensuite, dans Acrobat, je sélectionne "Document | Reconnaissance de texte OCR", puis enregistre le document en texte brut.

Cela fonctionne bien pour moi car je n'ai besoin que d'une conversion OCR occasionnelle.


1

Si vous pouviez obtenir toutes les images d'Evernote, vous pourriez faire l'OCR avec Google Docs.

Vous pouvez télécharger un dossier d'images vers Google Docs et les convertir en documents, qui contiendront à la fois l'image et le texte OCR.

Vous pouvez ensuite télécharger par lots tous ces documents en texte brut, ce qui supprimera l'image.

Si vous nommez toutes les images Evernote avec un hachage (par exemple md5), il devrait être facile de lier des fichiers de texte brut téléchargés depuis Google Docs avec l'image d'origine.


0

Je suis sous Windows et j'utilise Adobe Acrobat Pro et Word donc je fais ce qui suit:

  1. si le fichier n'est pas enregistré au format JPG, cliquez sur l'icône du globe oculaire dans le coin supérieur gauche de l'image dans Evernote pour l'ouvrir dans Photo Viewer et cliquez sur Fichier> "Créer une copie" pour enregistrer au format JPG
  2. accédez au fichier image dans l'Explorateur
  3. faites un clic droit dessus et sélectionnez Convertir en Adobe PDF (le fichier s'ouvrira dans Acrobat)
  4. cliquez sur Fichier> Enregistrer sous et sélectionnez Format de texte enrichi dans la liste déroulante "Enregistrer en tant que type" pour enregistrer en tant que fichier de texte enrichi (le traitement du fichier prend une minute)
  5. accédez au fichier RTF dans l'Explorateur et double-cliquez pour l'ouvrir dans Word
  6. modifier si nécessaire

Cela semble être un conseil sur la façon d'extraire du texte d'un fichier image donné, pas une image dans Evernote. Pouvez-vous clarifier comment cela répond à la question d'origine, et ce d'une manière différente des réponses précédentes et acceptées?
music2myear
En utilisant notre site, vous reconnaissez avoir lu et compris notre politique liée aux cookies et notre politique de confidentialité.
Licensed under cc by-sa 3.0 with attribution required.