Tout d'abord, vous devez comprendre ce qu'est un PDF. Les PDF sont conçus pour imiter une page imprimée et sont conçus uniquement comme un format de sortie, pas un format de saisie. Un PDF est en gros une carte contenant l’emplacement exact des caractères (lettres individuelles ou ponctuation, etc.) ou des images. Dans la plupart des cas , un fichier PDF ne stocke même pas d'informations sur la fin d'un mot et le début d'un autre.
(Quelques fichiers PDF récents stockent des informations sur ces éléments, mais il s’agit d’une nouvelle technologie et vous auriez de la chance de trouver de tels fichiers. Même si vous l’aviez fait, votre lecteur de PDF ne l’aurait peut-être pas su.)
Quoi qu'il en soit, il appartient à votre logiciel d'implémenter une sorte d '"intelligence artificielle" pour extraire simplement de l'emplacement des caractères individuels ce qui est un mot, ce qui est un paragraphe, etc. Différents logiciels le feront mieux que d’autres, et cela dépendra également de la façon dont le PDF a été créé. Dans tous les cas, vous ne devez jamais vous attendre à des résultats parfaits. Avoir le fichier PDF en sortie n'est pas la même chose que d'avoir le document source. Bien mieux d'essayer d'obtenir cela si vous le pouvez.
La solution standard à votre type de problème consiste à utiliser Adobe Acrobat Professional (le cher, pas le lecteur gratuit) pour convertir le PDF en HTML. Même cela ne va pas donner des résultats parfaits.
Il existe un logiciel gratuit qui peut être utilisé pour extraire du texte à partir de PDF avec une partie de la mise en forme intacte, mais encore une fois, n'espérez pas de résultats parfaits. Voir, par exemple, calibre (pouvant convertir au format RTF), pdftohtml / pdfreflow ou le traitement de texte AbiWord (avec tous les plug-ins d'importation / exportation activés). Il existe également un plugin d'importation PDF pour OpenOffice.
Mais s'il vous plaît ne vous attendez pas à la perfection avec aucun de ces résultats. Vous allez à contre-courant ici. PDF n'est tout simplement pas conçu comme un format d'entrée éditable.