Contrôle sur les archives Internet en plus de simplement «Interdire /»?


13

Existe-t-il des mécanismes pour contrôler ce que l'archive Internet Archive archive sur un site? Je sais interdire toutes les pages que je pourrais ajouter :

User-agent: ia_archiver
Disallow: /
  1. Puis-je dire au robot que je veux qu'il explore mon site une fois par mois ou une fois par an?

  2. J'ai un site / des pages qui ne sont pas / ne sont pas archivés correctement en raison de ressources non récupérées. Existe-t-il un moyen de dire au bot Internet Archive de quels actifs il a besoin pour récupérer le site?


Je suis également très intéressé par les réponses à cette question. +1 :)
Tim Post

Réponses:


8

Remarque : Cette réponse est de plus en plus obsolète.

Alexa Internet est le principal contributeur à la collection Web d'Internet Archive. Le matériel qu'Alexa explore à ses fins a été donné à IA quelques mois plus tard. L'ajout de la règle d'interdiction mentionnée dans la question n'affecte pas ces analyses, mais le Wayback les honorera `` rétroactivement '' (en refusant l'accès, le matériel sera toujours dans les archives - vous devez exclure le robot d'Alexa si vous voulez vraiment garder votre matériel à l'extérieur des archives Internet).

Il peut y avoir des moyens d'affecter les analyses d'Alexa, mais je ne suis pas familier avec cela.

Depuis que IA a développé son propre robot (Heritrix), ils ont commencé à faire leurs propres robots, mais ceux-ci ont tendance à être des robots ciblés (ils font des robots électoraux pour la Bibliothèque du Congrès et ont fait des robots nationaux pour la France et l'Australie, etc.). Ils ne s'engagent pas dans le genre d'analyses soutenues à l'échelle mondiale que Google et Alexa mènent. La plus grande exploration d'IA était un projet spécial d'exploration de 2 milliards de pages.

Comme ces analyses sont exécutées selon des calendriers qui découlent de facteurs spécifiques au projet, vous ne pouvez pas affecter la fréquence à laquelle ils visitent votre site ou s'ils visitent votre site.

La seule façon d'affecter directement comment et quand IA explore votre site est d'utiliser leur service Archive-It . Ce service vous permet de spécifier des analyses personnalisées. Les données résultantes seront (éventuellement) incorporées dans la collection Web d'IA. Il s'agit cependant d'un service d'abonnement payant .


3
Votre commentaire à propos de IA faisant ses propres analyses était vrai en 2011, et n'est plus vrai en 2016: nous faisons beaucoup d'exploration par nous-mêmes, maintenant.
Greg Lindahl

@GregLindahl vous êtes invités à ajouter une réponse mise à jour à cette question
Stephen Ostermiller

2

La plupart des moteurs de recherche prennent en charge la directive "Crawl-delay", mais je ne sais pas si IA le fait. Vous pouvez l'essayer cependant:

User-agent: ia_archiver
Crawl-delay: 3600

Cela limiterait le délai entre les demandes à 3 600 secondes (soit 1 heure), soit environ 700 demandes par mois.

Je ne pense pas que # 2 est possible - le bot IA saisit les actifs comme et quand il le juge opportun. Il peut avoir une limite de taille de fichier pour éviter d'utiliser trop de stockage.


@Kris: La définition d'un délai d'exploration devrait le faire par proxy. Si vous disposez de 30 pages et que vous indiquez au robot d'exploration de ne s'afficher qu'une fois par jour, chaque page est susceptible d'être actualisée environ tous les 30 jours. (Ce n'est pas une garantie, évidemment.)
DisgruntledGoat

En théorie, cependant, si vous effectuez une exploration d'archives, vous n'obéirez jamais à une telle règle. Explorer un site un document par jour signifie que vous ne pouvez pas obtenir une bonne capture du site à un moment précis. Si cet attribut devait être respecté, ce serait avec une limite supérieure de 1 à 5 minutes dans toute analyse d' archivage .
Kris

Ah OK, je vois votre point.
DisgruntledGoat

Je viens de regarder le Heritrix 3 récemment publié et je vois qu'ils ont ajouté la gestion de la directive de retard de crawl, mais par défaut, il ne respecte qu'un maximum de 300 secondes (5 minutes).
Kris
En utilisant notre site, vous reconnaissez avoir lu et compris notre politique liée aux cookies et notre politique de confidentialité.
Licensed under cc by-sa 3.0 with attribution required.