accès programmatique à la table des matières PDF

De nombreux documents PDF contiennent une table des matières hiérarchique. Je ne fais pas référence à la ToC visible sur une page - ce que je veux dire, ce sont les métadonnées utilisées pour générer les liens de la barre latérale lors de la visualisation d'un PDF avec une application telle que Aperçu. Comment puis-je l'extraire? Je ne cherche pas d'application graphique, car je vais extraire cette information de nombreux documents avec un script.

pdf

— Sean Mackesey
source

Pouvez-vous poser cette question de manière à ne pas donner l'impression que vous demandez une recommandation de logiciel? superuser.com/help/on-topic

— krowe

@krowe Hmm, je pense que le mieux que je puisse faire est de supprimer "avec un outil de ligne de commande ou quelque chose de similaire". Je serai heureux avec une recommandation de logiciel, mais je suis également ouvert à une description plus générale de la façon d'accéder à ces métadonnées. J’estime qu’il s’agit d’une question concrète, bien délimitée, qui répond aux critères d’affichage. Il se trouve que la réponse peut impliquer une recommandation de logiciel.

— Sean Mackesey

stackoverflow.com/questions/2431426/extract-toc-of-pdf

— krowe

@krowe Excellent, cela répond, merci.

— Sean Mackesey

Le paquet python pdfminer est capable d'extraire cette information. Utilisez le script dumppdf.py fourni avec le package.

dumppdf.py -T /path/to/my/PDF

Produit le XML de la table des matières.

REMARQUE : Crédit @krowe pour avoir lié le la source de cette réponse dans les commentaires.

— Sean Mackesey
source