Comment configurer le fichier robots.txt pour tout autoriser?


116

Mon robots.txtdans Google Webmaster Tools affiche les valeurs suivantes:

User-agent: *
Allow: /

Qu'est-ce que ça veut dire? Je n'ai pas assez de connaissances à ce sujet, alors je cherche votre aide. Je souhaite autoriser tous les robots à explorer mon site Web, est-ce la bonne configuration?


Allow n'est pas compris par tous les robots d'exploration, utilisez plutôt disavow: (c'est-à-dire sans URL après le:). C'est plus sûr (voir: youtu.be/G29Zt-UH_Ko )
Jérôme Verstrynge

Réponses:


153

Ce fichier permettra à tous les robots d'accéder

User-agent: *
Allow: /

Cela permet essentiellement à tous les agents utilisateurs (le *) d'accéder à toutes les parties du site (le /).


11
Correct, sauf si vous devez annuler la partie autorisée. Il n'y a pas de "allow" alors faites que: "User-agent: * Disallow:" comme ils le montrent ici: robotstxt.org/robotstxt.html
vsdev

Il y a une partie autoriser. Consultez Google docs officiels developers.google.com/search/reference/robots_txt#allow
Hasan Sefa Ozalp

60

Si vous souhaitez autoriser chaque bot à tout explorer, c'est la meilleure façon de le spécifier dans votre robots.txt:

User-agent: *
Disallow:

Notez que le Disallowchamp a une valeur vide, ce qui signifie selon la spécification :

Toute valeur vide indique que toutes les URL peuvent être récupérées.


Votre méthode (avec Allow: /au lieu de Disallow:) fonctionne également, mais Allowne fait pas partie de la spécification originale du fichier robots.txt , elle n'est donc pas prise en charge par tous les robots (de nombreux robots populaires le supportent, cependant, comme le Googlebot ). Cela dit, les champs non reconnus doivent être ignorés, et pour les bots qui ne les reconnaissent pas Allow, le résultat serait le même dans ce cas de toute façon: si rien n'est interdit d'être crawlé (avec Disallow), tout est autorisé à être crawlé.
Cependant, formellement (selon la spécification d'origine), il s'agit d'un enregistrement non valide, car au moins un Disallowchamp est requis:

Au moins un champ Disallow doit être présent dans un enregistrement.


17

Je comprends que c'est une question assez ancienne et qu'elle a de très bonnes réponses. Mais, voici mes deux cents par souci d'exhaustivité.

Selon la documentation officielle , il existe quatre façons d'autoriser un accès complet aux robots d'accéder à votre site.

Nettoyer:

Spécifiez un matcher global avec un segment d'interdiction comme mentionné par @unor. Donc, vous /robots.txtressemblez à ça.

User-agent: *
Disallow:

Le hack:

Créez un /robots.txtfichier sans contenu. Ce qui par défaut autorise tout pour tous les types de fichiers Bots.

Je m'en fous:

Ne créez pas un /robots.txttout. Ce qui devrait donner exactement les mêmes résultats que les deux ci-dessus.

Le moche:

À partir de la documentation des robots pour les balises méta , vous pouvez utiliser la balise méta suivante sur toutes vos pages de votre site pour faire Botssavoir que ces pages ne sont pas censées être indexées.

<META NAME="ROBOTS" CONTENT="NOINDEX">

Pour que cela s'applique à l'ensemble de votre site, vous devrez ajouter cette balise META pour toutes vos pages. Et cette balise doit être strictement placée sous votre HEADbalise de la page. En savoir plus sur cette balise meta ici .


Pas de robots.txt et Wordpress est un mauvais combo, car WordPress génère un robots.txt virtuel. À moins que vous ne soyez satisfait de celui généré par WordPress.
Jesper

En utilisant notre site, vous reconnaissez avoir lu et compris notre politique liée aux cookies et notre politique de confidentialité.
Licensed under cc by-sa 3.0 with attribution required.