Robots.txt vs Sitemap - Qui gagne dans un conflit


8

Si je bloque le répertoire / foo dans robots.txt, mais que mon plan de site xml contient des URL avec / foo, les URL du plan de site seront-elles récupérées par Google et d'autres moteurs de recherche? En d'autres termes, le plan du site l'emporte-t-il sur robots.txt? Je pense que oui, mais je n'en suis pas sûr.

Réponses:


12

Aucun moteur de recherche compatible avec le protocole d'exclusion des robots ne peut explorer n'importe quelle URL interdite dans le fichier robots.txt, quel que soit l'endroit où elle peut être répertoriée.

Cependant, Google n'a pas nécessairement à explorer vos URL pour les indexer. S'ils pensent avoir suffisamment de preuves de l'existence d'une page à cette URL (et qu'une liste de sitemaps compte très probablement comme de telles preuves), ils peuvent simplement décider d'ajouter l'URL à leur index sans aucun contenu. Pour citer les pages d'aide des outils pour les webmasters de Google :

"Bien que Google n'explore pas ou n'indexe pas le contenu des pages bloquées par robots.txt, nous pouvons toujours indexer les URL si nous les trouvons sur d'autres pages du Web. Par conséquent, l'URL de la page et, éventuellement, d'autres Les informations accessibles au public, telles que le texte d'ancrage dans les liens vers le site ou le titre du projet Open Directory (www.dmoz.org), peuvent apparaître dans les résultats de recherche Google. "

Ces pages peuvent apparaître comme des résultats de recherche, par exemple pour les mots inclus dans l'URL elle-même, ou pour les mots utilisés dans les liens pointant vers la page.

Ainsi, si vous listera une page dans un plan du site et désavouer dans robots.txt, il est probable que Google volonté indexer l'URL de cette page - mais pas son contenu.


Donc, cela ferait de votre réponse Oui au lieu de Non, non? :) Parce qu'il récupère les URL malgré le blocage du répertoire dans robots.txt, et vous semblez d'accord avec cela.
Henrik Erlandsson

3

Robots.txt définit quels robots conformes sont autorisés ou non à demander. Même si un lien particulier est présent dans un plan de site, un bot n'est pas autorisé à le demander si le fichier robots.txt l'interdit.

N'oubliez pas que les plans de site ne sont pas nécessaires et même s'ils sont fournis, les robots d'exploration peuvent ignorer les URL et les URL qui ne s'y trouvent pas. Si cela peut être vu dans les outils Google pour les webmasters, qui montre que toutes les URL d'un sitemap ne sont pas analysées et si certaines URL sont robotisées .


3

La réponse d'Itai est correcte, donc rien de très important à ajouter à cela, mais en réponse à votre question spécifique ...

Un plan de site ne peut pas l'emporter sur un fichier robots.txt, un plan de site ne fournit aucune instruction / directive pour les robots d'exploration sur un site Web. Ils ne sont même pas comparables. Si vous avez demandé aux robots de ne pas visiter / suivre, /fooalors les robots qui obéissent à vos directives robots ne visiteront tout simplement pas ce répertoire, quel que soit le chemin qu'ils ont emprunté pour y arriver (plan du site ou autre).


Euh ... C'est ce que Google dit dans sa documentation sur la façon dont ils gèrent l'exploration. [absolueURL] pointe vers un plan de site, un fichier d'index de plan de site ou une URL équivalente. Il n'est pas nécessaire que l'URL se trouve sur le même hôte que le fichier robots.txt. Plusieurs entrées de plan de site peuvent exister. En tant qu'enregistrements n'appartenant pas à un groupe, ceux-ci ne sont liés à aucun agent utilisateur spécifique et peuvent être suivis par tous les robots, à condition qu'ils ne soient pas interdits .
zigojacko

3
Lorsque Google peut traiter correctement un fichier robots.txt, une URL mentionnée dans un fichier Sitemap ne l' emportera jamais sur une directive d'interdiction valide dans le fichier robots.txt. Une URL qui n'est pas autorisée à explorer ne doit pas être explorée par Googlebot.
John Mueller

0

Dans le webmaster de Google: une erreur dans votre sitemap XML indique que "vous avez mis un lien empêché d'explorer votre fichier robots.txt. Google préfère le fichier robots.txt plutôt que le sitemap.

En utilisant notre site, vous reconnaissez avoir lu et compris notre politique liée aux cookies et notre politique de confidentialité.
Licensed under cc by-sa 3.0 with attribution required.