Quels robots et araignées dois-je bloquer dans robots.txt?


14

Afin de:

  1. Augmenter la sécurité de mon site Web
  2. Réduisez les besoins en bande passante
  3. Empêcher la collecte d'adresses e-mail

Réponses:


17

Aucun bot qui recueille des e-mails ou teste votre site pour des vulnérabilités ne respectera votre robots.txt. En fait, ces robots malveillants consultent le fichier robots.txt pour mieux cartographier votre site. Si vous avez un point, Disallow:cela sera utilisé pour mieux attaquer votre site. Un pirate qui examine manuellement votre site devrait passer plus de temps à examiner tous les fichiers / répertoires que vous essayez de refuser.


3
Point intéressant. Je me demande s'il est logique d'ajouter une fausse page à la liste Disallow dont le seul but est d'attraper de tels bots dans l'acte afin qu'ils puissent être automatiquement bloqués.
Steven Sudit

5
@Steven Sudit ce n'est pas une mauvaise idée. Cela s'appellerait un pot de miel.
Rook

Oui, c'est tout à fait vrai, même si je pensais davantage à l'astuce standard des compilateurs de répertoires (annuaires téléphoniques, etc.) d'ajouter un petit nombre de fausses entrées afin de détecter le vol en gros.
Steven Sudit

Si vous utilisez également ce pot de miel comme tarpit, cela perturbera également les indexeurs illégitimes. Cela est en fait assez courant pour les spammeurs - laissez une adresse e-mail indexable en pot de miel qui mène à un serveur de messagerie tarpit.
Mark Henderson

@Farseeker Je ne vois aucun problème à punir ceux qui enfreignent les règles. Bien que tromper les spammeurs avec de mauvaises données est une variante intéressante.
Rook

4

robots.txt n'augmentera pas la sécurité de votre site Web et n'empêchera pas la collecte d'adresses e-mail. robots.txt est un guide permettant aux moteurs de recherche de sauter des sections de votre site Web. Ceux-ci ne seront pas indexés et devraient être utilisés pour toutes les sections que vous ne souhaitez pas afficher dans les moteurs de recherche publics.

Cependant, cela n'empêchera en aucun cas d'autres robots de télécharger l'intégralité de votre site pour augmenter la sécurité ou empêcher la collecte des e-mails. Pour augmenter la sécurité, vous devez ajouter l'authentification et autoriser uniquement les utilisateurs authentifiés au-delà des sections sécurisées. Pour empêcher la collecte d'adresses e-mail, ne placez pas les e-mails en texte brut (ou texte facilement déchiffrable) sur un site Web.


1

robots.txt ne vous aidera pas avec la sécurité. Tout bot qui veut faire quelque chose de louche l'ignorera de toute façon.


0

Le fichier robots.txt ne sert qu'à demander aux robots et aux araignées de laisser certains éléments de contenu seuls; cela ne peut pas réellement empêcher leur accès. Les "bons" bots le respecteront, mais les "mauvais" (probablement ceux que vous voulez bloquer) l'ignoreront et continueront quand même.


-1

Au lieu de robots.txt, vous devrez peut-être utiliser des codes CAPTCHA.


Les codes CAPTCHA n'ont rien à voir avec les robots d'indexation (c'est ce que traite robots.txt).
user48838

C'était un downvote erroné. Le fait est qu'un robot peut ignorer robots.txt, mais les codes CAPTCHA le ralentiront au moins, sinon le bloqueront complètement. Merci de vous tromper.
Steven Sudit
En utilisant notre site, vous reconnaissez avoir lu et compris notre politique liée aux cookies et notre politique de confidentialité.
Licensed under cc by-sa 3.0 with attribution required.