J'étais chez mon grand-parent le week-end dernier. Ma grand-mère a sorti ce livre géant (~ 1400 pages) de son histoire familiale remontant à 1630 environ. Ballot géant que je suis, je pensais que ce serait génial d'avoir toutes les informations stockées dans une base de données et disponibles sur le Web. Je peux gérer toute la programmation Web et les expressions régulières et ce qui ne l'est pas, mais ce que je ne sais pas, c'est la meilleure façon d'obtenir le texte d'un livre à un ordinateur.
Je sais qu'une sorte d'OCR sera nécessaire, d'après les petites recherches que j'ai faites, il semble que mes options soient:
- prendre une photo de chaque page avec un appareil photo puis traiter les photos avec le logiciel OCR
- utiliser un scanner pour numériser chaque page, puis traiter avec le logiciel OCR
- utilisez une sorte d'appareil portable, comme celui-ci .
Quelqu'un at-il des idées sur la meilleure façon de résoudre ce problème? Je ne veux pas détruire le livre, car pour autant que je sache, il ne peut pas être remplacé. C'est probablement la seule fois où je vais numériser un gros livre, donc je ne pense pas que je veux dépenser plus de 250 $ sur n'importe quel type d'appareil. Cela ne me dérange pas un effort manuel ici (je réalise que cela prendra probablement des mois), mais j'aimerais trouver la méthode la plus efficace possible.
Remarque sur le livre: il n'a que 20 ans environ, il est donc en assez bon état. C'est monochrome et les pages n'ont pas commencé à jaunir. Puisqu'il est si grand, je m'inquiète des ombres possibles lorsque le texte descend près de la reliure.