Comment puis-je obtenir le nombre de mots d'un fichier PDF? Je pense que la plupart des fichiers pdf pour lesquels je souhaite obtenir le nombre total de mots ont un calque de texte intégré, ce qui fait que je n'ai pas besoin d'OCR.
La tâche a été lancée en recherchant des articles scientifiques de taille connue, par exemple 15 000 mots. La plupart des articles de moders sont publiés au format pdf
pdftotext
: n'oublie pas le e. Et vous pouvez utiliser une seule commande:pdftotext myfile.pdf - | wc -w
.