Quels robots valent vraiment la peine d'être loués sur un site?


11

Après avoir écrit un certain nombre de bots et vu les quantités massives de bots aléatoires qui se trouvent sur un site, je me demande en tant que webmaster, quels bots valent vraiment la peine d'être loués sur un site?

Ma première pensée est que le fait d'autoriser les bots sur le site peut potentiellement générer du trafic réel. Y a-t-il une raison d'autoriser les robots qui ne sont pas connus pour envoyer du trafic réel sur un site, et comment repérez-vous ces "bons" robots?


1
+1: bonne question; mais il est difficile de répondre à votre question car il y a tellement de bots.
Zistoloen

@Zistoloen: Oui, je sais que c'est une question difficile; en fait, la raison pour laquelle j'ai demandé est parce qu'un moteur de recherche non majeur que je connais qui a indexé des milliards de pages se plaignait de la façon dont il était incapable d'accéder à de grandes quantités du Web parce que des sites tentaient de bloquer les moteurs de recherche non majeurs.
bévue


@blunders Merci d'avoir pris le temps. Je l'aurais édité moi-même si j'avais pu analyser la question :)
DisgruntledGoat

@DisgruntledGoat: Pas de problème, merci pour les modifications!
bévue

Réponses:


11

Dans le domaine des bots normaux, tout dépend de ce que vous appréciez et vous seul pouvez en décider. Bien sûr, il y a Google, Bing / MSN / Yahoo !, Baidu et Yandex. Ce sont les principaux moteurs de recherche. Il existe également les différents sites de référencement et de backlink. À tort ou à raison, j'autorise quelques-uns des grands à avoir accès à mon site, mais en général, ce sont des sites inutiles. Je bloque archive.org non seulement dans robots.txt, mais par nom de domaine et adresse IP. C'est parce qu'ils ignorent le temps de robots.txt grand! C'est quelque chose dont vous avez besoin pour vous faire une idée. Ne vous laissez pas berner par les noms des agents. Ils sont souvent forgés par de mauvaises personnes. De nos jours, je reçois des milliers de demandes de pages de sources prétendant être Baidu, mais ce n'est pas le cas. Apprenez à connaître ces araignées par noms de domaine et blocs d'adresses IP et apprenez à les gérer à ce niveau. Les bons obéissent à robots.txt.

Mais je dois vous avertir, il existe une tonne de robots furtifs, de robots voyous, de grattoirs, etc. que vous souhaiterez rechercher fréquemment votre analyse de journal et bloquer. Ce 5uck5! Mais cela doit être fait. La plus grande menace de leur part ces jours-ci sont des liens de faible qualité vers votre site. Mon code de sécurité anti-bot mis à jour que j'ai mis en œuvre cette année a automatiquement supprimé 7700 liens de faible qualité. Bien sûr, mon code a encore besoin de travail, mais vous obtenez le point. Les mauvais robots volent toujours le potentiel du site.

Il ne faudra pas longtemps avant de vous en rendre compte.


1

J'ai eu des problèmes avec les bots Baidu qui ralentissaient mon serveur alors que le moteur de recherche n'envoyait presque pas de trafic. Ces robots ne respectent pas le fichier robots.txt, donc pour bloquer les robots Baidu, collez simplement ce qui suit dans votre fichier htccess.

# User-agent: Baiduspider
# Baiduspider+(+http://www.baidu.com/search/spider_jp.html)
# Baiduspider+(+http://www.baidu.com/search/spider.htm)

# IP range
# 180.76

RewriteCond %{REMOTE_ADDR} ^180\.76\. [OR]
RewriteCond %{HTTP_USER_AGENT} ^Baiduspider [NC]
RewriteRule .* - [F,L]

J'ai également eu des problèmes avec les araignées Bing / Microsoft qui rampent trop vite, contrairement à Baidu, ils respectent donc le fichier robots.txt;

User-agent: bingbot
Crawl-delay: 1

User-agent: msnbot
Crawl-delay: 1
En utilisant notre site, vous reconnaissez avoir lu et compris notre politique liée aux cookies et notre politique de confidentialité.
Licensed under cc by-sa 3.0 with attribution required.