Identification
J'ai trouvé cet outil qui semble être ce que vous pouvez utiliser pour identifier les fichiers PDF / A. Cela s'appelle DROID (Digital Record and Object Identification) . Il est basé sur Java et peut être exécuté à partir d'une interface graphique ou de la ligne de commande.
extrait
DROID est un outil logiciel développé par les Archives nationales pour effectuer une identification automatisée par lots des formats de fichiers. Développé par son service de préservation numérique dans le cadre de ses activités de conservation numérique plus larges, DROID est conçu pour répondre aux exigences fondamentales de tout référentiel numérique pour pouvoir identifier le format précis de tous les objets numériques stockés, et pour relier cette identification à un registre central d'informations techniques sur ce format et ses dépendances.
Étant donné qu'il est parrainé par les Archives nationales, je suppose que c'est le bon outil pour le faire, compte tenu de l'objectif prévu du format PDF / A. Le projet est également open source et le code est disponible sur Github ainsi que sous forme binaire sur le site Web des Archives nationales .
Validation et conversion
Si vous cherchez un outil pour effectuer la validation et la conversion, je crois que PDFBox peut le faire. PDFBox répertorie la validation PDF / A directement sur la première page de leur site Web. C'est une autre application Java 8-).
extrait du site web
Validation PDF / A
Validez les PDF par rapport à la norme ISO PDF / A.
Sous la section des outils de ligne de commande à gauche de leur page principale, affichez l'utilisation suivante de l'outil:
$ java -jar pdfbox-app-x.y.z.jar org.apache.pdfbox.ConvertColorspace [OPTIONS] <inputfile> <outputfile>
veraPDF est un autre outil capable de valider PDF / A; il fait partie de l'ensemble d'outils de référence de l'Open Preservation Foundation. C'est aussi une application Java.
Conversion
Pour faire juste la conversion, j'ai trouvé cette méthode à partir d'un article de blog intitulé: moyen gratuit de convertir un PDF existant en PDF / A , qui utilise les outils suivants:
- Ghostscript 8.64 uniquement.
- PDFBox 0.7.3
- pdfmarks (fichier pour fournir des métadonnées supplémentaires)
- PDFA_def.ps
- USWebCoatedSWOP.icc
Avec ce qui précède en place, vous utilisez la commande suivante:
$ gs -sDEVICE=pdfwrite -q -dNOPAUSE -dBATCH -dNOSAFER \
-dPDFA -dUseCIEColor -sProcessColorModel=DeviceCMYK \
-sOutputFile=Out_PDFA.pdf PDFA_def.ps pdfmarks IN_PDF.pdf
Ce n'est pas sans ses verrues. L'article discute de l'un d'eux, en fixant les indicateurs d'impression sur les hyperliens étant l'un d'entre eux. L'article fournit une application Java que vous pouvez utiliser pour résoudre ces problèmes:
$ java FixPrintFlag Out_PDFA.pdf New_verifiablePDFA.pdf
Ce n'est pas joli mais semble être réalisable. Voir l' article pour plus de détails.
Les références