J'ai des pages sur mon site dont je souhaite éloigner les moteurs de recherche, je les ai donc interdites dans mon robots.txt
fichier comme ceci:
User-Agent: *
Disallow: /email
Pourtant, j'ai récemment remarqué que Google renvoie toujours parfois des liens vers ces pages dans leurs résultats de recherche. Pourquoi cela se produit-il et comment puis-je l'arrêter?
Contexte:
Il y a plusieurs années, j'ai créé un site Web simple pour un club dans lequel un de mes parents était impliqué. Ils voulaient avoir des liens e-mail sur leurs pages, donc, pour essayer d'empêcher ces adresses e-mail de se retrouver trop listes de spam, au lieu d'utiliser des mailto:
liens directs, j'ai fait en sorte que ces liens pointent vers un simple script de piège de redirection / récupération d' adresse exécuté sur mon propre site. Ce script retournerait soit une redirection 301 vers l' mailto:
URL réelle , soit, s'il détectait un modèle d'accès suspect, une page contenant de nombreuses fausses adresses e-mail aléatoires et des liens vers d'autres pages de ce type. Pour garder les robots de recherche légitimes à l'écart du piège, j'ai mis en place la robots.txt
règle ci-dessus, interdisant tout l'espace des liens de redirection et des pages de piège légitimes.
Récemment, cependant, l'une des personnes du club a recherché Google pour son propre nom et a été assez surprise quand l'un des résultats sur la première page était un lien vers le script du redirecteur, avec un titre composé de leur adresse e-mail suivi par mon nom. Bien sûr, ils m'ont immédiatement envoyé un e-mail et voulaient savoir comment obtenir leur adresse de l'index de Google. J'ai également été assez surpris, car je ne savais pas du tout que Google indexerait ces URL, apparemment en violation de ma robots.txt
règle.
J'ai réussi à soumettre une demande de suppression à Google, et cela semble avoir fonctionné, mais j'aimerais savoir pourquoi et comment Google contourne ma robots.txt
décision et comment m'assurer qu'aucune des pages interdites n'apparaîtra dans leur Résultats de recherche.
Ps. J'ai en fait trouvé une explication et une solution possibles, que je publierai ci-dessous, tout en préparant cette question, mais j'ai pensé que je la poserais de toute façon au cas où quelqu'un d'autre pourrait avoir le même problème. N'hésitez pas à publier vos propres réponses. Je serais également intéressé de savoir si d'autres moteurs de recherche le font aussi et si les mêmes solutions fonctionnent également pour eux.
robots.txt
fichier est comme un petit panneau "Pas d'intrusion" à côté de l'allée de quelqu'un. Ce n'est pas magique, et (à moins qu'un visiteur ne le recherche explicitement), il peut se promener sur votre propriété sans même être légèrement affecté par son existence. Il existe des équivalents Internet de projecteurs et de clôtures en fil de rasoir, mais si c'est ce que vous voulez,robots.txt
n'est-ce pas.