En plus d'obéir à robots.txt, obéissez nofollow
et noindex
dans les <meta>
éléments et les liens:
Nombreux sont ceux qui pensent que robots.txt n'est pas le bon moyen de bloquer l'indexation et, en raison de ce point de vue, ont demandé à de nombreux propriétaires de sites de s'appuyer sur la <meta name="robots" content="noindex">
balise pour indiquer aux robots d'exploration de ne pas indexer une page.
Si vous essayez de créer un graphique des connexions entre les sites Web (tout ce qui ressemble au PageRank),
(et <meta name="robots" content="nofollow">
) est censé indiquer que le site source ne fait pas suffisamment confiance au site de destination pour lui donner son aval. Ainsi, bien que vous puissiez indexer le site de destination, vous ne devez pas stocker la relation entre les deux sites.
Le référencement est plus un art qu'une science, et il est pratiqué par un grand nombre de personnes qui savent ce qu'elles font et qui lisent les résumés analytiques des personnes qui savent ce qu'elles font. Vous allez rencontrer des problèmes qui vous empêcheront de faire des choses que d'autres sites jugeraient parfaitement acceptables en raison d'une règle ou d'une personne entendue ou lue dans un article de blog sur SEOmoz qui peut ou peut ne pas être interprétée correctement.
En raison de cet élément humain, sauf si vous êtes Google, Microsoft ou Yahoo !, vous êtes présumé malveillant, sauf preuve du contraire. Vous devez faire particulièrement attention à ne pas menacer un propriétaire de site Web et à agir de la manière dont vous voudriez qu'un robot d'exploration potentiellement malveillant (mais heureusement bénin) agisse:
- arrêtez l'exploration d'un site dès que vous détectez un blocage: 403 / 401s sur les pages dont vous savez le travail, la limitation, les délais d'inactivité, etc.
- évitez les analyses exhaustives sur des périodes relativement courtes: explorez une partie du site et revenez plus tard (quelques jours plus tard) pour explorer une autre partie. Ne faites pas de demandes parallèles.
- évitez d’explorer les zones potentiellement sensibles: les URL avec
/admin/
, par exemple.
Même dans ce cas, la bataille sera rude, à moins que vous utilisiez des techniques de type chapeau noir, telles que la falsification d’UA ou le masquage intentionnel de modèles rampants: de nombreux propriétaires de site, pour les mêmes raisons que précédemment, bloqueront à vue un robot inconnu. la chance que quelqu'un n'essaye pas de "pirater leur site". Préparez-vous à beaucoup d'échec.
Une des choses que vous pouvez faire pour lutter contre l'image négative qu'un robot d'exploration inconnu va avoir est de préciser dans votre chaîne d'agent utilisateur qui vous êtes:
Aarobot Crawler 0.9 created by John Doe. See http://example.com/aarobot.html for more information.
Où http://example.com/aarobot.html
explique ce que vous essayez d'accomplir et pourquoi vous n'êtes pas une menace. Cette page devrait contenir quelques éléments:
- Informations sur la façon de vous contacter directement
- Informations sur ce que le robot rassemble et pourquoi il le collecte
- Informations sur la manière de ne pas participer et de supprimer toutes les données collectées
Cette dernière est la clé: un bon opt-out est comme une garantie de remboursement et génère un achalandage déraisonnable. Il doit être humain: une étape simple (adresse électronique ou, idéalement, un formulaire) et complète (il ne devrait y avoir aucun "piège": la désactivation signifie que vous arrêtez de crawler sans exception).