Les outils Google pour les webmasters m'informent que des robots bloquent l'accès au plan du site


11

Voici mon robots.txt :

User-agent: *
Disallow: /wp-admin/
Disallow: /wp-includes/

Sitemap: http://www.example.org/sitemap.xml.gz

Mais Google Webmaster Tools me dit que les robots bloquent l'accès au plan du site:

Nous avons rencontré une erreur lors de l'accès à votre sitemap. Veuillez vous assurer que votre plan du site respecte nos consignes et peut être consulté à l'emplacement que vous avez indiqué, puis renvoyez-le: URL restreinte par robots.txt .

J'ai lu que Google Webmaster Tools cache le fichier robots.txt , mais le fichier a été mis à jour il y a plus de 36 heures.

Mise à jour:

Le fait de frapper le plan du site TEST ne fait pas que Google récupère un nouveau plan du site. Seul le plan du site SUBMIT a pu le faire. (BTW, je ne vois pas à quoi sert `` tester le plan du site '' à moins que vous n'y colliez votre plan du site actuel - il ne récupère pas une nouvelle copie du plan du site à partir de l'adresse qu'il vous demande d'entrer avant le test - mais c'est une question pour un autre jour.)

Après avoir soumis (au lieu de tester) un nouveau plan du site, la situation a changé. J'obtiens maintenant "URL bloquée par robots.txt . Le plan du site contient des URL qui sont bloquées par robots.txt ." pour 44 URL. Il y a exactement 44 URL dans le plan du site. Cela signifie que Google utilise le nouveau plan du site, mais qu'il respecte toujours l'ancienne règle des robots (qui gardait tout hors de portée) Aucune des 44 URL ne se trouve dans /wp-admin/ou /wp-includes/(ce qui est de toute façon impossible, car robots.txt est construit sur à la volée par le même plugin qui crée le plan du site).

Mise à jour 2:

La situation empire: sur une page de résultats de recherche Google, la description de la page d'accueil se lit comme suit: "Une description de ce résultat n'est pas disponible en raison du fichier robots.txt de ce site - en savoir plus". Toutes les autres pages ont de belles descriptions. Il n'y a pas d' indexation de méta-blocage robots.txt OU robots de la page d'accueil.

Je suis coincé.


Dans Outils Google pour les webmasters> Santé> URL bloquées, vous pouvez immédiatement tester si votre fichier robots.txt bloquerait l'URL de votre sitemap (ou toute autre URL que vous souhaitez tester). Il ne semble pas que votre fichier robots.txt actuel devrait bloquer votre plan du site, mais vous dites que cela a été mis à jour. Une version précédente de votre fichier robots.txt a-t-elle bloqué cela?
MrWhite

1
Oui, la version précédente s'est bloquée. Je suppose que Google n'a tout simplement pas mis à jour son cache ...
Gaia

J ai exactement le même problème. Mon cache robots.txt est du 23 avril de cette année, aujourd'hui le 25 avril et le cache est toujours ancien. Je n'ai pas le temps d'attendre, j'ai besoin de googleboot pour indexer mon site maintenant (c'est le site de l'entreprise) mais il semble que je ne puisse rien faire, attendez simplement sans savoir combien de temps. C'est tellement frustrant!

Réponses:


8

Il semblerait que Google n'ait probablement pas encore mis à jour le cache de votre fichier robots.txt. Votre fichier robots.txt actuel (ci-dessus) ne semble pas devoir bloquer l'URL de votre sitemap.

Je suppose que Google n'a tout simplement pas mis à jour son cache.

Inutile de deviner. Dans Google Webmaster Tools (GWT), sous "Santé"> "URL bloquées", vous pouvez voir quand votre robots.txt a été téléchargé pour la dernière fois et s'il a réussi. Il vous informera également du nombre d'URL bloquées par le fichier robots.txt.

référence robots.txt dans les outils Google pour les webmasters

Comme mentionné dans mes commentaires, GWT dispose d'un outil de vérification robots.txt ("Santé"> "URL bloquées"). Vous pouvez donc tester immédiatement les modifications apportées à votre fichier robots.txt (sans modifier votre fichier réel). Spécifiez le fichier robots.txt dans la zone de texte supérieure et les URL que vous souhaitez tester dans la zone de texte inférieure et il vous indiquera s'ils seront bloqués ou non.


Mise en cache de robots.txt

Une demande robots.txt est généralement mise en cache jusqu'à un jour, mais peut être mise en cache plus longtemps dans les situations où l'actualisation de la version mise en cache n'est pas possible (par exemple, en raison de délais d'attente ou d'erreurs 5xx). La réponse mise en cache peut être partagée par différents robots. Google peut augmenter ou diminuer la durée de vie du cache en fonction des en-têtes HTTP Cache-Control max-age.

Source: Google Developers - Spécifications Robots.txt


Serait-ce encore le cas 24 heures plus tard ??
Gaia

Quelle est la date de "téléchargement" indiquée dans les outils pour les webmasters? Cela vous dira si c'est toujours le cas . Comme le montre la capture d'écran ci-dessus (depuis l'un de mes sites), le fichier robots.txt a été téléchargé pour la dernière fois le "3 septembre 2012" (il y a 3 jours). Mais dans mon cas, il n'est pas nécessaire de télécharger à nouveau le fichier car rien n'a changé (l'en-tête Last-Modified doit être le même). La fréquence à laquelle Google récupère votre fichier robots.txt dépendra des en-têtes Expires et Last-Modified définis par votre serveur.
MrWhite

Téléchargé il y a 22 heures et expire l'en-tête indique +24 heures. Je vais réessayer dans quelques heures ça devrait être résolu!
Gaia

Cela ne l'a pas fait. Google utilise le nouveau plan du site, mais il respecte toujours l'ancienne règle robots.txt (qui interdisait tout)
Gaia

"Cela ne l'a pas fait" - Google n'a-t-il pas encore mis à jour le cache de votre fichier robots.txt? Même si vous dites que vous avez modifié le fichier il y a plus de 36 heures et qu'il a été signalé comme téléchargé il y a 22 heures?! Que voyez-vous lorsque vous cliquez sur le lien vers votre fichier robots.txt?
MrWhite

2

J'ai eu le même problème avec mon site car lors de l'installation de WP, je sélectionne ne pas suivre avec le moteur de recherche ou la même option.

Pour résoudre ce problème:

  1. allez dans les outils pour les webmasters analyse l'URL et soumettez-la www.example.com/robots.txtavec cette option -> supprimer du cache pour modifier le contenu ou ...
  2. Attends une minute
  3. soumettre à nouveau l'URL de votre sitemap
  4. terminer
En utilisant notre site, vous reconnaissez avoir lu et compris notre politique liée aux cookies et notre politique de confidentialité.
Licensed under cc by-sa 3.0 with attribution required.