Comment (correctement) autoriser le bot archive.org? Les choses ont-elles changé, si oui, quand?

10

J'ai un site Web que je ne veux surtout pas être indexé par les moteurs de recherche, mais je veux le conserver pour l'éternité sur archive.org. Donc, je robots.txtcommence par ceci:

User-agent: *
Disallow: /

Aujourd'hui, selon archive.org, je dois ajouter ce qui suit dans mon robots.txtpour autoriser leurs bots:

User-agent: ia_archiver
Disallow:

Mais, j'avais déjà fait ce qu'ils ont indiqué il y a quelques années, au moins, j'ai ajouté ce qui suit:

User-agent: archive.org_bot
Disallow:

Ensuite, il existe une autre source affirmant que vous devez ajouter les deux Disallows ci-dessus , plus une autre:

User-agent: ia_archiver-web.archive.org 
Disallow:

Notez que vous devez le mettre Disallow: /si vous ne voulez pas que le bot archive votre site.

Y a-t-il eu un changement avec le bot IA? Si oui, quand?

Quelle est la voie recommandée? Dois-je simplement autoriser les trois pour le moment et espérer que IA ne changera plus leur nom de robot à l'avenir?

web-crawlers robots.txt internet-archive

— kqw
source

Je connaissais seulement ia_archiver. Les autres sont une surprise pour moi. Avez-vous des liens pour cela? La raison pour laquelle je demande, c'est que archive.org visite mon site de toute façon et j'ai dû les bloquer par adresse IP. Vous mentionnez également que vous Ne voulez autoriser archive.org mais parler de la bloquer. Je veux juste être plus clair à ce sujet et les liens peuvent nous aider tous. Merci d'avance!

— closetnoc

Mis à jour la question. J'espère que c'est plus clair maintenant. La petite version: je ne veux pas de robots de moteurs de recherche sur ce site, je veux des robots archive.org. Mais peut-être que je devrais inverser la question car c'est ce que la plupart des gens recherchent?

— kqw

En fait, si vous n'utilisez aucun de ces éléments dans, vous autorisez archive.org à condition que vous ne bloquiez pas avec une déclaration générale.

— closetnoc

L'utilisation de "ia_archiver" devrait également bloquer "ia_archiver-web.archive.org", de sorte que le dernier semblerait inutile (à condition que ce bot suive la norme).

— MrWhite

Voyez-vous le robot ia-archiver (ou archive.org_bot) dans vos journaux d'accès?

— MrWhite

9

Mise à jour : Comme @KevinFegan le note dans les commentaires, leur documentation a changé. La partie ci-dessous décrit comment Internet Archive l'a géré dans le passé (au moins en 2014).

Leur FAQ Comment puis-je exclure les pages de mon site de Wayback Machine? fait référence à la suppression de documents de la Wayback Machine , qui indique que leur bot est appelé ia_archiver.

Cet enregistrement devrait donc permettre à leur robot d'explorer l'ensemble de votre site:

User-agent: ia_archiver
Disallow:

— unor
source

L'ordre des groupes ne devrait pas avoir d'importance. L' agent utilisateur le plus spécifique (c'est-à-dire le plus long) qui correspond est celui qui gagne. Le *groupe ne correspond que si aucun autre groupe n'a correspondu.

— MrWhite

@ w3d: Vous avez raison, j'ai supprimé cette partie. Merci pour l'info :)

— unor

1

Apparemment, cela a changé avec le temps. Je ne trouve pas "ia_archiver" sur la page FAQ que vous avez fournie, et sur cette page du blog Archive.org du 25 avril 2017, Mark Graham dit: L'agent utilisateur "ia_archiver" est utilisé par Alexa Internet, pas Internet Archive.

— Kevin Fegan

@KevinFegan: Merci pour votre avis! J'ai mis à jour ma réponse pour créer un lien vers les versions archivées de la documentation contenant le nom.

— unor

J'aime la façon dont ils compliquent délibérément les choses pour qu'ils puissent s'enfuir!

— Ultralisk

5

Il y a vraiment 2 problèmes ici:

Est-ce que robots.txtle retour sur votre site empêchera (bloquera) l'exploration de votre site?
Wayback explorera-t-il votre site?

Pour le point # 1:
comme d'autres l'ont dit, l'entrée correcte pour robots.txt est:

User-agent: ia_archiver
Disallow:

Gardez à l'esprit que cela peut prendre un certain temps (peut-être un bon moment), pour que Wayback remarque les modifications que vous avez apportées à robots.txt.

Pour vérifier si le robots.txtsur votre site permettra à Wayback d'explorer votre site:

Accédez à cette URL: https://archive.org/web/
Dans la case en haut de la page, saisissez l'URL d'une page de votre site et cliquez sur le "Browse History"bouton.
Ou, dans la zone sous "Enregistrer la page maintenant" (actuellement en bas à droite), entrez l'URL d'une page sur votre site, puis cliquez sur le "Save Page"bouton.

À ce stade, vous devriez voir 1 des 3 choses:

Vous verrez un message d'erreur indiquant que Wayback ne peut pas accéder aux pages de ce site en raison de "robots.txt".
Vous verrez le "calendrier" des points de sauvegarde historiques pour la page de votre site. Dans ce cas, vous savez que Wayback n'est PAS empêché d'explorer votre site.
Ou, vous verrez un message indiquant que Wayback n'a pas d'archive de cette page, et une offre de cliquer sur un lien pour ajouter la page à Wayback. Dans ce cas également, vous savez que Wayback n'est PAS empêché d'explorer votre site.

Maintenant, pour le point # 2:

Will Wayback explorer votre site?

Le fait que vous autorisiez Wayback à explorer votre site ne signifie pas qu'ils (jamais) exploreront votre site.

Selon la FAQ Wayback (emphase ajoutée):

Comment puis-je inclure mon site dans la Wayback Machine?

Une grande partie de nos données Web archivées proviennent de nos propres analyses ou des analyses d'Alexa Internet. Aucune des deux organisations n'a "explorer mon site maintenant!" processus de soumission. Les analyses d'Internet Archive ont tendance à trouver des sites qui sont bien liés à partir d'autres sites . La meilleure façon de vous assurer que nous trouvons votre site Web est de vous assurer qu'il est inclus dans les répertoires en ligne et que des sites similaires / liés vous relient.

Alexa Internet utilise ses propres méthodes pour découvrir les sites à explorer. Il peut être utile d'installer la barre d'outils Alexa gratuite et de visiter le site que vous souhaitez explorer pour vous assurer qu'ils le savent.

Quelle que soit la personne qui explore le site, vous devez vous assurer que les règles «robots.txt» de votre site et les directives des robots META sur la page ne disent pas aux robots d'exploration d'éviter votre site.

Mise à jour: 09-mai-2017

D'autres ont laissé des commentaires / réponses indiquant qu'Archive.org n'honore plus le fichier robots.txt. Il s'agit peut-être d'un "travail en cours" et ce sera finalement le cas, mais je n'ai pas encore vu ce nouveau comportement.

Le cas semble provenir de cet article: Robots.txt: ROBOTS.TXT EST UNE NOTE DE SUICIDE par archiveteam.org. Bien que cette page ait peu ou rien de bon à dire sur "Robots.txt", elle ne mentionne nulle part qu'Archive.org n'honorera plus robots.txt.

À noter également: cet article est hébergé archiveteam.org, ce qui n'est certainement pas le cas archive.org, et je ne suis pas sûr qu'il existe une relation (officielle) entre archive.orget archiveteam.org.

En fait, cette page sur à propos de l'équipe d'archives , semble déclarer une distinction entre et (je souligne):archive.org archive.orgarchiveteam.org

Formé en 2009, l'équipe d'archives (à ne pas confondre avec l'équipe Archive-It d'archives.org) est un collectif d'archivistes voyous dédié à la sauvegarde de copies de sites Web en voie de disparition ou supprimés pour le bien de l'histoire et du patrimoine numérique. ...

Dans tous les cas, j'ai décidé de donner à ce essayer, et je trouve que, au moins à ce moment, Archive.org STILL honneurs robots.txt:

J'ai trouvé un objet au hasard sur eBay: Objet #: 131795294232
Cliquez pour voir les articles vendus:

La page "Articles vendus" s'ouvre: http://offer.ebay.com/ws/eBayISAPI.dll?ViewBidsLogin&item=131795294232 Copiez le lien dans le presse-papiers.
Allez sur web.archive.org et collez le lien depuis eBay.
Vous verrez que cela archive.orgindique que la "Page ne peut pas être affichée en raison de robots.txt."

Donc, en ce moment, je ne suis pas convaincu, mais j'aimerais qu'on me prouve le contraire ... ce serait génial si c'était vrai.

— Kevin Fegan
source

Verrouiller archive.org avec robots.txt ne fonctionnera plus:

— wortwart

@wortwart - Ce serait formidable s'il en était ainsi (voir la mise à jour que j'ai ajoutée à ma réponse). Avez-vous des liens vers des informations à ce sujet?

— Kevin Fegan

Bien sûr: blog.archive.org/2017/04/17/… "Il y a quelques mois, nous avons cessé de faire référence aux fichiers robots.txt sur le gouvernement américain et les sites Web militaires (...) Nous cherchons maintenant à le faire plus largement. "

— wortwart

4

Mise à jour 2017

Le bot d'archivage ne se soucie plus de votre fichier robots.txt.

Si vous voulez vraiment le bloquer, envoyez-leur un e-mail en fonction de cette page , ou bloquez leur adresse IP via htaccess.

— Goyllo
source

2

Voir le mai 2017 mise à jour ma réponse: Comment bien (dis) permettent au robot archive.org ...? . Le bot Archive se soucie toujours du fichier robots.txt, à l'exception des sites Web gouvernementaux. Notez que l'article que vous avez mentionné provenait de www.archiveteam.org, qui n'est pas lié à Archive.org. --->

— Kevin Fegan

---> Bien que cette page ait peu ou rien de bon à dire sur "Robots.txt", elle ne mentionne nulle part qu'Archive.org n'honorera plus robots.txt. L'article pertinent d'Archive.org est: Robots.txt destiné aux moteurs de recherche ne fonctionne pas bien pour les archives Web . "Il y a quelques mois, nous avons cessé de faire référence aux fichiers robots.txt sur le gouvernement américain et les sites Web militaires (...) Nous cherchons maintenant à le faire plus largement."

— Kevin Fegan

Oui. Désormais, l'archive ignore totalement les demandes de suppression.

— Ultralisk

3

L'entrée robots.txt ia_archiver Disallow (avec le "/") devrait convenir au besoin que vous décrivez (pour "préserver pour l'éternité", mais pas encore publiquement).

Je viens de faire un test rapide, commentant l'entrée ia_archiver Disallow pour un site qui l'avait depuis au moins 10 ans. Ensuite, j'ai recherché le site sur archive.org/web, et il a montré des captures qu'il avait collectées en 2007, 2008, 2009, 2011, 2012, 2013, 2014, 2015, 2016 et 2017! Cela signifie que Archive.org n'a jamais strictement respecté ce que les autres pensaient être une déclaration «ne pas archiver» au cours de ces années, il n'a simplement pas exposé les copies archivées.

— Mike
source

2

"ia_archiver" est maintenant (ab) utilisé par Alexa, certaines sources disent: 1 , 2 .
Archive.org maintenant (2018) ne respecte plus du tout le "robots.txt". 3 Non seulement pour les pages mil / gov, mais pour toutes les pages. Comme expérimenté avec mon propre site Web privé, qui a et avait un robots.txt excluant ia depuis 2012; et maintenant j'ai soudainement découvert qu'il a été rampé et sauvé par eux toutes les années et maintenant toute l'histoire est visible. C'est un sentiment d'être trahi. > :-(

— Carl
source

1

J'ai essayé la robots.txtméthode et ça n'a pas marché. J'ai donc contacté le site sur leur email info@archive.org:

Bonjour,

Pouvez-vous s'il vous plaît supprimer mon site personnel dimitarnestorov.com de vos archives?

Merci!

Dimitar

Et j'ai obtenu la réponse suivante:

Bonjour,

Les archives Internet peuvent exclure des sites Web de Wayback Machine (web.archive.org), mais nous vous demandons tout d'abord respectueusement de nous aider à vérifier que vous êtes le propriétaire du site ou l'auteur du contenu de dimitarnestorov.com en effectuant l'une des actions suivantes:

(Remarque: certaines de ces options peuvent faire référence au contenu situé dans les captures précédentes de Wayback Machine et / ou à la documentation que vous pourriez avoir concernant la période spécifiée.)

postez votre demande sur la version actuelle du site (et envoyez-nous un lien).

envoyez votre demande à partir du contact e-mail principal figurant sur le site et montrez-nous où il peut être situé (le cas échéant).

envoyer une demande à partir de l'e-mail du déclarant (si visible publiquement sur une recherche WHOIS, vous pouvez nous lier à) ou de l'e-mail du webmaster figurant sur le site.

nous indiquer où vos informations personnelles (nom, point de contact, image de soi) apparaissent sur le site d'une manière qui vous identifie en tant que propriétaire du site ou auteur du contenu que vous souhaitez exclure - dans ce cas, nous demandons pour vérifier votre identité via un scan d'une pièce d'identité avec photo valide (des informations sensibles telles que la date de naissance, l'adresse ou le numéro de téléphone peuvent être supprimées).

nous faire parvenir la communication d'une société d'hébergement ou d'un registraire qui vous est adressée en tant que propriétaire du domaine.

(Remarque: la simple mention du nom / nom d'utilisateur d'une personne et / ou d'un lien hypertexte / redirection entre sites / pages / comptes en soi n'est généralement pas suffisante pour exclure les archives.)

Si aucune de ces options ne vous est proposée, veuillez nous en informer dans une réponse à cet e-mail.

Nous vous serions reconnaissants de bien vouloir nous aider à préserver autant d’archives que possible. Par conséquent, veuillez nous faire savoir s'il n'existe que des URL ou des répertoires spécifiques qui vous concernent afin que nous puissions laisser le reste des archives disponibles.

Comme vous le savez peut-être, Internet Archive est une bibliothèque numérique à but non lucratif, cherchant à maintenir via la Wayback Machine un enregistrement historique d'Internet librement accessible. Le contenu des archives n'est pas exploité par Internet Archive à des fins commerciales.

L'équipe des archives Internet

J'ai créé wayback-removal-request.htmlavec le contenu suivant (même pas du HTML valide):

<p>Hello,</p>

<p>Can you remove my website from the Wayback Machine?</p>

<p>Thanks!</p>
<p>Dimitar</p>

Téléchargé et répondu à leur e-mail avec l'URL à partir de laquelle la page Web était disponible et plus tard, j'ai reçu la réponse suivante:

Bonjour,

Le site / URL référencé dans votre e-mail ci-dessous a maintenant été soumis pour exclusion de Wayback Machine sur http://www.archive.org (en ce qui concerne toutes les captures passées):

dimitarnestorov.com

Veuillez prévoir jusqu'à un jour pour que les parties automatisées du processus suivent leur cours et pour que les modifications prennent effet.

L'équipe des archives Internet

Lorsque j'ai vérifié quelques heures plus tard, mon site Web a été supprimé.

— Dimitar Nestorov
source