Comment puis-je encourager Google à lire un nouveau fichier robots.txt?


22

Je viens de mettre à jour mon fichier robots.txt sur un nouveau site; Google Webmaster Tools signale qu'il a lu mon fichier robots.txt 10 minutes avant ma dernière mise à jour.

Existe-t-il un moyen d'encourager Google à relire mon robots.txt dès que possible?

MISE À JOUR: Sous Configuration du site | Accès Crawler | Testez robots.txt:

L'accès à la page d'accueil montre:

Googlebot est bloqué sur http://my.example.com/

FYI: Le robots.txt que Google a lu en dernier ressemble à ceci:

User-agent: *
Allow: /<a page>
Allow: /<a folder>
Disallow: /

Est-ce que je me suis tiré une balle dans le pied, ou est-ce que ça finira par lire: http: ///robots.txt (comme il l'a fait la dernière fois qu'il l'a lu)?

Des idées sur ce que je dois faire?


FYI: Le site est nouveau, et ce message apparaît dans Paramètres | Taux d'exploration: "Votre site a reçu des paramètres de taux d'exploration spéciaux. Vous ne pourrez pas modifier le taux d'exploration."
qxotk

FYI: J'ai trouvé une publication dans les groupes google qui disait que google lirait robots.txt "au moins une fois par jour" - quelqu'un peut-il confirmer cela? [La publication des groupes Google est ici: groups.google.com/group/google_webmaster_help-indexing/… ]
qxotk

Pour info: 1 jour s'est écoulé, et google n'a pas encore lu mon robots.txt mis à jour.
qxotk

Même problème ici, ce n'est pas une "fonctionnalité" ...
mate64

Réponses:


25

Dans le cas où quelqu'un d'autre rencontrerait ce problème, il existe un moyen de forcer google-bot à télécharger à nouveau le fichier robots.txt.

Allez dans Santé -> Récupérer en tant que Google [1] et demandez-lui de récupérer /robots.txt

Cela téléchargera à nouveau le fichier et google analysera également à nouveau le fichier.

[1] dans la précédente interface utilisateur de Google, il s'agissait de "Diagnostics -> Récupérer en tant que GoogleBot".


11
Malheureusement, cela ne fonctionnera pas si votre fichier robots.txt est défini sur Disallow: /. Au lieu de cela, les rapports de récupération "Refusé par robots.txt": /.
studgeek

3
La prochaine fois, ajoutez cette ligne. Autoriser: /robots.txt
jrosell

Je ne trouve pas 'Diagnostics', peut-être que l'interface utilisateur a changé?
David Riccitelli

2
Ok, c'est maintenant Santé> Récupérer en tant que Google.
David Riccitelli

Ne fonctionne pas pour moi lorsque j'essaye de récupérer robots.txt. ERREUR: "La page n'a pas pu être explorée pour le moment car elle est bloquée par le fichier robots.txt le plus récent téléchargé par Googlebot. Notez que si vous avez récemment mis à jour le fichier robots.txt, le rafraîchissement peut prendre jusqu'à deux jours. Vous pouvez trouver plus d'informations dans l'article du centre d'aide sur robots.txt. "
Indrek

4

Je sais que c'est très ancien, mais ... Si vous avez téléchargé le mauvais fichier robots.txt (interdisant toutes les pages), vous pouvez essayer ce qui suit:

  • corrigez d'abord votre fichier robots.txt pour autoriser les pages correctes, puis
  • téléchargez un sitemap.xml avec vos pages

lorsque google essaie de lire le plan du site xml, il le vérifie contre robots.txt, forçant google à relire votre robots.txt.


Ça n'a pas marché pour moi. Il dit que le plan du site a été bloqué par le robots.txt
James

1

D'ACCORD. Voici ce que j'ai fait et en quelques heures, Google a relu mes fichiers robots.txt.

Nous avons 2 sites pour chaque site que nous exploitons. Appelons-les le site canonique (www.mysite.com) et le site de domaine nu (mysite.com).

Nous avons configuré nos sites afin que mysite.com renvoie toujours une redirection 301 vers le site www.mysite.com.

Une fois que j'ai configuré les deux sites dans les outils Google Webmaster, je lui ai dit que le site www.mysite.com est le site canonique, il a peu de temps après lu le fichier robots.txt sur le site canonique.

Je ne sais pas vraiment pourquoi, mais c'est ce qui s'est produit.


3
Je sais que c'est vieux, mais accepter votre propre réponse est 100% légitime
Mark Henderson

0

Raccourcissez l'intervalle d'analyse Google pendant quelques jours.

De plus, je l'ai vu là-bas pour vérifier votre robots.txt, cela pourrait le forcer à Google, mais je ne suis pas sûr.


Peux-tu être plus précis? Je vois: Configuration du site | Accès Crawler | Testez robots.txt, mais cela teste le texte que vous collez dans la boîte, pas votre fichier live robots.txt - aussi, c'est là qu'il me dit quand il a été téléchargé pour la dernière fois. Où est le bouton "vérifier" dont vous parlez?
qxotk
En utilisant notre site, vous reconnaissez avoir lu et compris notre politique liée aux cookies et notre politique de confidentialité.
Licensed under cc by-sa 3.0 with attribution required.