Réponses:
Ça a l'air libre, je l'ai juste essayé et ça marche bien pour moi.
Google Docs teste actuellement une nouvelle fonctionnalité API qui utilise l'OCR (Optical Character Recognition) sur les images et les PDF.
Depuis le système d'exploitation Google :
L'API Google Docs teste une nouvelle fonctionnalité qui vous permet d'effectuer l'OCR (reconnaissance optique de caractères) sur une image. Une démonstration en direct illustre cette fonctionnalité : vous pouvez télécharger une image JPG, GIF ou PNG haute résolution de moins de 10 Mo et Google Docs extrait le texte et le convertit en un nouveau document. Google mentionne que "l'opération peut actuellement prendre jusqu'à 40 secondes" et un petit test a montré que le service n'est pas encore fiable: il est lent et renvoie fréquemment des erreurs.
Les résultats sont loin d'être parfaits et vous trouverez de nombreuses erreurs, mais le service est gratuit et s'améliore constamment. Voici le résultat de l'OCR pour ce document numérisé :
Un document Google Docs peut être exporté dans différents formats, notamment HTML, OpenOffice et Word:
Selon ma réponse sur SO à Est-ce que quelqu'un connaît un moyen de convertir facilement un PDF en format docx par programme :
Convertissez un PDF en SVG (ghostscript le fera) et importez-le ...
... le fait étant que même si Word n'intègre pas de PDF, il incorpore SVG.
Utilisez un programme de reconnaissance optique de caractères, comme Omnipage Pro par exemple. Il prend en charge PDF en tant qu'entrée de document et Word en tant que sortie.
Vous pouvez également essayer OCRTerminal qui offre un service gratuit pendant 20 pages par mois. Ils ont un client Beta Desktop qui semble être disponible sur invitation (vous devez les contacter et exprimer votre intérêt).