Grande question, et de nombreux webmasters pourraient être intéressés, car l'araignée Baidu est notoirement agressive et peut zapper les ressources des serveurs ...
Comme indiqué dans les actualités de recherche sur le Web de Baidu, l' araignée Baidu ne prend pas en charge le paramètre de notification de retard d'exploration , et vous oblige à la place à vous inscrire et à vérifier votre site avec sa plateforme Baidu Webmaster Tools, comme indiqué ici sur son site. Cela semble être la seule option pour contrôler la fréquence d'exploration directement avec Baidu.
Le problème est que d'autres robots de spam utilisent les agents utilisateurs de Baidu (répertoriés ici sous le numéro 2) pour diriger votre site, comme indiqué dans leur FAQ ici sous le numéro 4. Donc, demander un taux d'exploration plus lent avec Baidu peut ne pas tout résoudre.
Par conséquent, si vous décidez d'utiliser les outils pour les webmasters de Baidu, il peut être judicieux de comparer également ses agents utilisateurs avec les adresses IP connues pour leur être associées en utilisant une ressource comme la base de données Bots vs Browsers , ou en utilisant une recherche DNS inversée.
Les seules autres options consistent à bloquer tous les agents utilisateurs Baidu et à sacrifier ainsi le trafic potentiel de Baidu, ou à tenter de limiter les demandes excessives en utilisant quelque chose comme mod_qos pour Apache, qui prétend gérer:
- Nombre maximal de demandes simultanées vers un emplacement / ressource (URL) ou un hôte virtuel.
- Limitation de la bande passante telle que le nombre maximum autorisé de requêtes par seconde à une URL ou le maximum / minimum de kilo-octets téléchargés par seconde.
- Limite le nombre d'événements de demande par seconde (conditions de demande spéciales).
- Il peut également «détecter» des personnes très importantes (VIP) qui peuvent accéder au serveur Web sans ou avec moins de restrictions.
- Filtre de ligne de requête et d'en-tête générique pour refuser les opérations non autorisées. Demander la limitation et le filtrage des données du corps (nécessite mod_parp).
- Limitations du niveau de connexion TCP, par exemple, le nombre maximal de connexions autorisées à partir d'une seule adresse source IP ou d'un contrôle dynamique de maintien en vie.
- Préfère les adresses IP connues lorsque le serveur manque de connexions TCP gratuites.
Je n'ai pas trouvé d'expérience signalée avec Baidu Webmaster Tools, qui est lent à charger et a des problèmes de traduction (pas de version anglaise non plus). Cela pourrait être utile, mais basé sur des opinions, bien sûr.