Empêcher les sitemaps XML de s'afficher dans les résultats de recherche Google


23

Comment puis-je empêcher mes fichiers de plan de site XML de s'afficher dans les résultats de recherche Google comme ce résultat d'une site:requête de recherche:

plan du site dans les résultats de recherche

Je ne comprends pas pourquoi Google choisirait d'abord d'afficher les fichiers de sitemap dans les résultats de recherche. Ces fichiers ne sont pas destinés à la consommation humaine.

Google doit pouvoir l'explorer pour pouvoir le traiter, donc je ne peux pas le refuser dans robots.txt . Je ne veux simplement pas qu'ils le mettent dans les résultats de recherche après l'avoir traité.


1
Huh. Intéressant. La seule pensée que j'ai, c'est si vous avez un lien vers celui-ci sur votre site, ou s'il apparaît dans votre fichier sitemap. De plus, je ne sais pas si vous y faites référence dans votre fichier robots.txt si cela peut être un facteur. Je ne le pense pas, juste quelque chose à considérer. Je fournis mon plan de site uniquement via Google WMT uniquement et je n'ai pas vu ce problème, du moins pas encore. Je peux comprendre ne pas vouloir que votre plan du site soit public. Je ne veux pas de mon public. Trop de pirates / grattoirs là-bas.
closetnoc

3
Sur ce site particulier, j'ai /sitemap.xmlrépertorié dans robots.txt , puis ce lien vers un autre ensemble d'autres sitemaps comme /sitemap-123.xmlet /sitemap-124.xml. Je régénère les sitemaps tous les jours et les chiffres changent quotidiennement. Celui qui est indexé est assez ancien. Je n'y ai aucun lien sur mon site, mais il est possible qu'un autre site ait un lien quelque part.
Stephen Ostermiller

1
S'il n'est pas utilisé, assurez-vous qu'il est supprimé, puis excluez-le dans votre fichier robots.txt et il sera supprimé des SERPs assez rapidement. Curieusement, la suppression de l'URL dans Google WMT prend une éternité (des mois pour moi) tandis que le fichier robots.txt est assez rapide.
closetnoc

1
Avez-vous envoyé le plan du site XML à votre compte GWMT?
Oleg

3
Le fichier sitemap existait encore jusqu'à aujourd'hui. Je l'ai supprimé et maintenant il redirige vers /sitemap.xml je suppose que ce plan de site particulier va maintenant tomber de l'index. Je voudrais empêcher Google de les montrer à la recherche d'utilisateurs à l'avenir également.
Stephen Ostermiller

Réponses:


18

Google indexe les plans de site XML (comme tout fichier XML). Si Google connaît une URL et renvoie une réponse valide, il va passer les règles d'inclusion de Google et pourrait être indexé. Personnellement, je soumets uniquement le plan du site via GWT et j'inclus une Sitemap:référence dans le fichier robots.txt, ce qui est certainement suffisant pour l'indexer.

La méthode recommandée pour empêcher l'indexation de ces fichiers par Google consiste à inclure un X-Robots-Tagen-tête de réponse HTTP lors de la diffusion du plan de site XML. Par exemple:

X-Robots-Tag: noindex

Tout comme l'inclusion d'une balise META robots dans les fichiers HTML, l'en- X-Robots-Tagtête peut être utilisé pour tout type de fichier.

Référence: Ce document (de novembre 2008!) Semble citer notre propre John Mueller (Google) en ce qui concerne l'utilisation de la X-Robots-Tagréponse lorsqu'il s'agit de plans de site XML.
Oui, Google indexera et classera votre fichier Sitemap XML

Pour plus d'informations, consultez le guide du développeur de Google:
spécifications de la balise Meta Robots et de l'en-tête HTTP X-Robots-Tag


Où dois-je écrire le X-Robots-Tag: noindexcode d'en-tête? À l'intérieur sitemap.xmlou robots.txt?
xameeramir

1
@student Il s'agit d'un en-tête de réponse HTTP , il doit donc être défini avant de servir ces fichiers (dans le cadre de l'en-tête de réponse HTTP) - il ne peut pas être défini "à l'intérieur". Selon la façon dont vous servez ces fichiers, vous pouvez le définir dans votre code côté serveur (par exemple en PHP header('X-Robots-Tag: noindex',true)) ou, si vous utilisez Apache, dans votre fichier .htaccess ou votre configuration de serveur. Voir la réponse de Stephen pour un exemple de code. Voir également le guide du développeur de Google lié à ci-dessus.
MrWhite

8

La réponse de MrWhite à propos de l'utilisation de X-Robots-Tag semble être la bonne façon de procéder.

Voici le code qui peut être utilisé dans les fichiers de configuration .htaccess ou Apache pour ce faire. (Référence: WebmasterWorld - Sitemaps apparaissant dans SERP - Comment éviter cela? )

<Files ~ "sitemap.*\.xml(\.gz)?$">
  Header append X-Robots-Tag "noindex"
</Files>

Sous nginx, la configuration serait la suivante. (Référence: exemples Yoast X-Robots-Tag )

location ~* sitemap.*\.xml(\.gz)?$ {
    add_header X-Robots-Tag "noindex";
}

2

Pourquoi est-ce important?

Si vous pouvez réellement trouver votre sitemap dans SERP, vous avez de plus gros problèmes.

Je me concentrerais plutôt sur la création de pages avec un contenu utile. De cette façon, vous aurez même du mal à trouver votre plan du site. Pas que vous vous en soucieriez de toute façon.

PS

Presque tout le monde garde les sitemaps au même endroit. Donc, si quelqu'un voulait trouver où vous le gardez, il le fera :)


4
J'utilise Google pour la recherche sur le site et je suis tombé sur un plan du site lors de son utilisation. Ce serait très déroutant pour mes utilisateurs s'ils devaient cliquer dessus.
Stephen Ostermiller

Selon vous, combien d'utilisateurs utilisent Google pour la recherche sur le site?
dasickle

3
Tous les utilisateurs qui saisissent des termes de recherche dans le champ de recherche en haut de mes pages.
Stephen Ostermiller

Dans ce cas. Avez-vous envisagé d'utiliser quelque chose comme swiftype.com pour votre recherche de site? Il y en a d'autres que vous pouvez utiliser. Vous pouvez réorganiser, supprimer et ajouter des résultats. Vous obtenez également d'excellentes statistiques, etc.
dasickle

-6

mettre ce qui suit dans le fichier robots.txt

User-agent: *
Disallow: /sitemap.xml

envoyez plutôt votre plan du site via les outils Google pour les webmasters.


1
Pouvez-vous clarifier votre logique - votre première phrase semble entrer en conflit avec la dernière?
MrWhite

5
Google explorera-t-il toujours un plan du site bloqué dans le fichier robots.txt? Avez-vous une référence pour soutenir cette affirmation?
Stephen Ostermiller

4
Si vous interdisez le sitemap.xml, je suis quasiment sûr qu'il ne serait plus analysé. Pas quelque chose que vous voudriez arriver!
Max

2
Google n'explorera aucun document avec le fichier robots.txt interdit. Pas ordinairement, en tout cas ... plans du site inclus.
En utilisant notre site, vous reconnaissez avoir lu et compris notre politique liée aux cookies et notre politique de confidentialité.
Licensed under cc by-sa 3.0 with attribution required.