Evernote effectue l'OCR sur les images que vous y enregistrez. Existe-t-il un moyen d'obtenir l'équivalent en texte intégral d'une image dans Evernote, ou l'OCR est-il uniquement destiné à la recherche?
Evernote effectue l'OCR sur les images que vous y enregistrez. Existe-t-il un moyen d'obtenir l'équivalent en texte intégral d'une image dans Evernote, ou l'OCR est-il uniquement destiné à la recherche?
Réponses:
L'API Evernote a des fonctionnalités pour obtenir du texte et un rectangle où ce texte est présent à l'intérieur de l'image. Voir http://evernote.com/about/developer/api/evernote-api.htm , consultez «Format XML Evernote Recognition Index» et les fonctions pour le récupérer. Le problème est qu'ils ne font pas d'OCR traditionnel ... leur algorithme d'OCR peut produire des mots différents pour un seul "mot" sur l'image. Tout ce qu'ils utilisent pour la recherche, c'est bien pour eux, mais pas pour l'utiliser comme moteur de reconnaissance. (Bien qu'ils vous donnent du poids pour chaque mot alternatif, vous pouvez peut-être l'utiliser)
De plus, Evernote ne décide apparemment pas qu'une image particulière est équivalente à exactement un mot - par exemple, Evernote ne détermine pas qu'une image particulière est "un indice" et n'est pas "due". Au contraire, il suivra les deux, et une recherche pour l'un ou l'autre retournerait la même image. Par conséquent, il n'y a aucun moyen d'obtenir un équivalent en texte intégral car Evernote ne décide pas ce qu'est réellement le texte intégral, mais seulement ce qu'il pourrait être.
evernote paie une somme décente au créateur de l'ocr-stuff OU a payé une somme décente pour que quelque chose fonctionne ensemble. ainsi, je doute vraiment qu'ils vous permettront d'obtenir le texte extrait (+ positionnement sur l'image).
(pourrait être un modèle commercial, pour numériser les images d'autres personnes et fournir un bon ocr :))
donc la réponse est non.
Je ne sais pas combien de sophistication vous avez besoin, mais comme j'utilise également Adobe Acrobat, je fais juste un clic droit sur ma pièce jointe Evernote pour l'ouvrir avec Acrobat.
Ensuite, dans Acrobat, je sélectionne "Document | Reconnaissance de texte OCR", puis enregistre le document en texte brut.
Cela fonctionne bien pour moi car je n'ai besoin que d'une conversion OCR occasionnelle.
Si vous pouviez obtenir toutes les images d'Evernote, vous pourriez faire l'OCR avec Google Docs.
Vous pouvez télécharger un dossier d'images vers Google Docs et les convertir en documents, qui contiendront à la fois l'image et le texte OCR.
Vous pouvez ensuite télécharger par lots tous ces documents en texte brut, ce qui supprimera l'image.
Si vous nommez toutes les images Evernote avec un hachage (par exemple md5
), il devrait être facile de lier des fichiers de texte brut téléchargés depuis Google Docs avec l'image d'origine.
Je suis sous Windows et j'utilise Adobe Acrobat Pro et Word donc je fais ce qui suit: