Je veux obtenir tous les fichiers d'un site Web donné sur archive.org. Les raisons pourraient inclure:
- l'auteur original n'a pas archivé son propre site Web et il est maintenant hors ligne, je souhaite en faire une mémoire cache publique
- Je suis l'auteur original d'un site Web et j'ai perdu du contenu. Je veux le récupérer
- ...
Comment je fais ça ?
Considérant que la machine de retour archive.org est très spéciale: les liens de page Web ne pointent pas vers l'archive elle-même, mais vers une page Web qui pourrait ne plus être là. JavaScript est utilisé côté client pour mettre à jour les liens, mais une astuce telle qu'un wget récursif ne fonctionnera pas.
gem install wayback_machine_downloader
. Exécutez wayback_machine_downloader avec l'URL de base du site Web que vous souhaitez récupérer en tant que paramètre:wayback_machine_downloader http://example.com
Plus d'informations: github.com/hartator/wayback_machine_downloader