Il y a vraiment 2 problèmes ici:
- Est-ce que
robots.txt
le retour sur votre site empêchera (bloquera) l'exploration de votre site?
- Wayback explorera-t-il votre site?
Pour le point # 1:
comme d'autres l'ont dit, l'entrée correcte pour robots.txt est:
User-agent: ia_archiver
Disallow:
Gardez à l'esprit que cela peut prendre un certain temps (peut-être un bon moment), pour que Wayback remarque les modifications que vous avez apportées à robots.txt.
Pour vérifier si le robots.txt
sur votre site permettra à Wayback d'explorer votre site:
- Accédez à cette URL: https://archive.org/web/
- Dans la case en haut de la page, saisissez l'URL d'une page de votre site et cliquez sur le
"Browse History"
bouton.
- Ou, dans la zone sous "Enregistrer la page maintenant" (actuellement en bas à droite), entrez l'URL d'une page sur votre site, puis cliquez sur le
"Save Page"
bouton.
À ce stade, vous devriez voir 1 des 3 choses:
- Vous verrez un message d'erreur indiquant que Wayback ne peut pas accéder aux pages de ce site en raison de "robots.txt".
- Vous verrez le "calendrier" des points de sauvegarde historiques pour la page de votre site. Dans ce cas, vous savez que Wayback n'est PAS empêché d'explorer votre site.
- Ou, vous verrez un message indiquant que Wayback n'a pas d'archive de cette page, et une offre de cliquer sur un lien pour ajouter la page à Wayback. Dans ce cas également, vous savez que Wayback n'est PAS empêché d'explorer votre site.
Maintenant, pour le point # 2:
Will Wayback explorer votre site?
Le fait que vous autorisiez Wayback à explorer votre site ne signifie pas qu'ils (jamais) exploreront votre site.
Selon la FAQ Wayback (emphase ajoutée):
Une grande partie de nos données Web archivées proviennent de nos propres analyses ou des analyses d'Alexa Internet. Aucune des deux organisations n'a "explorer mon site maintenant!" processus de soumission. Les analyses d'Internet Archive ont tendance à trouver des sites qui sont bien liés à partir d'autres sites . La meilleure façon de vous assurer que nous trouvons votre site Web est de vous assurer qu'il est inclus dans les répertoires en ligne et que des sites similaires / liés vous relient.
Alexa Internet utilise ses propres méthodes pour découvrir les sites à explorer. Il peut être utile d'installer la barre d'outils Alexa gratuite et de visiter le site que vous souhaitez explorer pour vous assurer qu'ils le savent.
Quelle que soit la personne qui explore le site, vous devez vous assurer que les règles «robots.txt» de votre site et les directives des robots META sur la page ne disent pas aux robots d'exploration d'éviter votre site.
Mise à jour: 09-mai-2017
D'autres ont laissé des commentaires / réponses indiquant qu'Archive.org n'honore plus le fichier robots.txt. Il s'agit peut-être d'un "travail en cours" et ce sera finalement le cas, mais je n'ai pas encore vu ce nouveau comportement.
Le cas semble provenir de cet article: Robots.txt: ROBOTS.TXT EST UNE NOTE DE SUICIDE par archiveteam.org
. Bien que cette page ait peu ou rien de bon à dire sur "Robots.txt", elle ne mentionne nulle part qu'Archive.org n'honorera plus robots.txt.
À noter également: cet article est hébergé archiveteam.org
, ce qui n'est certainement pas le cas archive.org
, et je ne suis pas sûr qu'il existe une relation (officielle) entre archive.org
et archiveteam.org
.
En fait, cette page sur à propos de l'équipe d'archives , semble déclarer une distinction entre et (je souligne):archive.org
archive.org
archiveteam.org
Formé en 2009, l'équipe d'archives (à ne pas confondre avec l'équipe Archive-It d'archives.org) est un collectif d'archivistes voyous dédié à la sauvegarde de copies de sites Web en voie de disparition ou supprimés pour le bien de l'histoire et du patrimoine numérique. ...
Dans tous les cas, j'ai décidé de donner à ce essayer, et je trouve que, au moins à ce moment, Archive.org STILL honneurs robots.txt:
- J'ai trouvé un objet au hasard sur eBay: Objet #: 131795294232
- Cliquez pour voir les articles vendus:
- La page "Articles vendus" s'ouvre: http://offer.ebay.com/ws/eBayISAPI.dll?ViewBidsLogin&item=131795294232 Copiez le lien dans le presse-papiers.
- Allez sur web.archive.org et collez le lien depuis eBay.
- Vous verrez que cela
archive.org
indique que la "Page ne peut pas être affichée en raison de robots.txt."
Donc, en ce moment, je ne suis pas convaincu, mais j'aimerais qu'on me prouve le contraire ... ce serait génial si c'était vrai.