Quel agent utilisateur dois-je définir?


18

Il y a Ask bot, qui définit cet en-tête:

Mozilla/2.0 (compatible; Ask Jeeves/Teoma) 

Compte tenu de cela, j'ai les questions suivantes:

  • Si j'écris un robot d'exploration nommé Goofy, quel agent utilisateur dois-je utiliser?
  • Quelle est la différence si je mets Mozilla/2.0ou Mozilla/5.0?

Toutes autres suggestions sur la façon de formater mon agent utilisateur pour se conformer aux normes actuelles sont les bienvenues.

Réponses:


32

Je suis le principal concepteur et auteur d'un robot d'exploration à grande échelle (voir metadatalabs.com/mlbot (lien archivé) ). Ce que vous demandez touche à un sujet qui est très important pour nous - peut-être la partie la plus importante de la gestion d'un robot: celle de la politesse.

Premièrement: la raison de la chose "Mozilla" est de dire au site quelles sont les capacités de votre navigateur. Si votre bot n'essaie pas d'agir comme un navigateur, il n'y a aucune raison particulière d'inclure la chose "Mozilla".

En ce qui concerne votre chaîne d'agent utilisateur et d'autres éléments liés à la politesse:

  1. Sélectionnez un nom que personne d'autre n'utilise. Je soupçonne que si vous utilisez "Goofybot", tout ira bien. Mais je vérifierais pour être sûr.

  2. Votre chaîne d'agent utilisateur doit inclure un lien vers plus d'informations sur le bot. Par exemple, notre chaîne indique "MLBot (www.metadatalabs.com/mlbot)".

  3. Assurez-vous que si quelqu'un recherche "Goofybot", cette page est élevée (de préférence en premier) dans les résultats de recherche.

  4. Votre page sur le bot doit indiquer à quoi vous utilisez les informations, les adresses IP à partir desquelles vous explorez et inclure un moyen pour les personnes de vous contacter en cas de problème avec le bot.

  5. Vous devez répondre rapidement à toutes les questions ou réclamations, en utilisant la philosophie «le client a toujours raison». N'oubliez pas que si votre robot a causé un problème dont cette personne se plaint, il a probablement causé des problèmes sur une douzaine d'autres sites dont personne ne s'est plaint. Soit ils n'ont pas vu les problèmes, soit ils ont simplement bloqué votre adresse IP.

  6. Vous devez construire dans l'installation pour empêcher votre bot d'accéder à un nom de domaine particulier. Certaines personnes ne voudront pas que vous exploriez du tout et n'ont pas l'accès ou la capacité technique pour créer un fichier robots.txt ou bloquer dans .htaccess. Nous avons constaté que cette capacité nous permet de dire à quelqu'un: "Nous sommes désolés que MLBot ait causé un problème. Nous lui avons demandé de ne plus jamais explorer votre site." Sans surprise, cela calme très rapidement les gens.

  7. Si vous ne respectez pas déjà robots.txt, faites-le. Rien ne vous donnera une mauvaise réputation plus rapidement que d'ignorer le fichier robots.txt.

Sensationnel. Cela a duré plus longtemps que prévu. Au cours des quatre dernières années, j'ai commis chacune de ces erreurs auxquelles je fais allusion ci-dessus, et d'autres encore. Nous avons cependant constaté que si nous sommes ouverts sur ce que nous faisons et communiquons honnêtement (y compris en publiant des informations sur les erreurs avant de recevoir des plaintes), la majorité des webmasters nous considèrent comme un bon citoyen Internet.


Cet exemple de lien ci-dessus ( metadatalabs.com/mlbot ) montre juste ("En construction") ....
starbeamrainbowlabs

2
@starbeamrainbowlabs Cette réponse a été écrite en 2010. Metadata Labs a fermé ses portes en 2012.
Jim Mischel

Existe-t-il une alternative?
starbeamrainbowlabs

@starbeamrainbowlabs alternative à quoi?
Jim Mischel

À tout ce qui était lié à la page des laboratoires de métadonnées affichée. Comme je ne le vois pas, je ne peux pas proposer d'alternative: P
starbeamrainbowlabs

8

Mozilla / 2.0 et Mozilla / 5.0 sont tous deux des références au navigateur Mozilla. Il est devenu largement vide de sens, de nombreux robots l'utilisant, mais devrait indiquer au site de traiter votre robot comme il le ferait pour tout utilisateur aléatoire naviguant avec un navigateur normal.

Il est cependant de bonne étiquette d'inclure une URL pointant vers une page sur qui vous êtes et pourquoi vous explorez dans la section suivante. Demandez à Jeeves peut s'en tirer avec juste le nom, mais vous devez inclure une URL.

Par exemple

Mozilla/5.0 (compatible; http://example.org/)

Cela permettra aux administrateurs Web de comprendre pourquoi vous explorez leur site et de vous contacter en cas de problème avec le comportement de votre robot.


En utilisant notre site, vous reconnaissez avoir lu et compris notre politique liée aux cookies et notre politique de confidentialité.
Licensed under cc by-sa 3.0 with attribution required.