Comment archiver l'ensemble du site?

15

Pour enregistrer une seule page via Wayback Machine, je peux aller à:

http://web.archive.org/save/https://somewebsite.example.com/

Comment archiver le site Web de manière récursive par Wayback Machine ?

Il y a des projets comme wayback-machine-downloader, mais je suis à la recherche d'une fonctionnalité qui me permet de télécharger le site Web de manière récursive.

archive.org

— Kenorb
source

12

Étant donné que Wayback Machine ne fournit pas une telle fonctionnalité, j'ai trouvé une solution de contournement.

Tout d'abord, mettez en miroir le site Web en utilisant wget, par exemple
```
wget -m https://example.com/
```
Utilisez ensuite curlpour archiver une à une toutes les pages que vous avez téléchargées.
```
find . -name "*.html" -exec curl -v "https://web.archive.org/save/https://{}" ';'
```
^{Remarque: Vous pouvez modifier .htmlà .phpou inclure certains types de fichiers.}

— Kenorb
source

Si le site n'utilise pas d'extensions (comme html ou php - comme SE est configuré), comment adaptez-vous votre commande?

— db

2

Vous pouvez modifier -name "*.html"à -type finclure tous les fichiers.

— kenorb

Comment cela fonctionne-t-il avec les paramètres de requête?

— Mithical

6

Si vous souhaitez archiver un petit site Web, l' équipe des archives gère le ArchiveBot , un bot IRC où vous pouvez demander à explorer des sites Web. L'équipe d'archivage soumettra ensuite les pages analysées à la machine Wayback d'Internet Archive.

— Flux
source

C'est extrêmement utile.

— Guy

1

La Wayback Machine n'offre pas un moyen de soumettre un site entier, seulement une seule page comme vous l'avez déjà trouvé. Ceci est abordé dans quelques points de leur FAQ Wayback Machine :

Puis-je ajouter des pages à la Wayback Machine?

Sur https://archive.org/web, vous pouvez utiliser la fonction "Enregistrer la page maintenant" pour enregistrer une page spécifique une seule fois. Actuellement, cela n'ajoute pas l'URL à des analyses futures ni n'enregistre plus d'une page. Il n'enregistre pas plusieurs pages, répertoires ou sites entiers .

et

Comment puis-je inclure mon site dans la Wayback Machine?

Une grande partie de nos données Web archivées proviennent de nos propres analyses ou des analyses d'Alexa Internet. Aucune des deux organisations n'a "explorer mon site maintenant!" processus de soumission . Les analyses d'Internet Archive ont tendance à trouver des sites qui sont bien liés à partir d'autres sites. La meilleure façon de vous assurer que nous trouvons votre site Web est de vous assurer qu'il est inclus dans les répertoires en ligne et que des sites similaires / liés vous relient.

— John C
source

1

Ce n'est pas une réponse à la question. Tout simplement parce qu'il n'y a aucun moyen officiel de le faire, la tâche n'est pas impossible à effectuer. En fait, il devrait être assez facile de créer un script qui ajoute des liens de manière récursive.

— db

@db, la réponse de kenorb semble être ce que vous demandiez. Soit dit en passant, cette réponse m'est plus utile pour le moment, car je voulais juste que The WaybackMachine capture une page pour moi maintenant.

— cp.engr

1

Cet article sur archive.org propose également un service payant qui fera l'exploration pour vous aussi souvent que vous le souhaitez:

Créez un compte Archive-It

Archive-It est un service d'abonnement fourni par Internet Archive qui vous permet d'exécuter vos propres projets d'exploration sans aucune expertise technique. Dites-nous quoi analyser et à quelle fréquence l'explorer, et nous exécutons l'analyse et mettons les résultats dans la Wayback Machine.

Ce n'est probablement pas ce que vous recherchez, mais pour certaines entreprises, ce service peut être utile. Je suppose que cela aide à financer archive.org, qui autrement est gratuit.

— stason
source