Comment configurer le fichier robots.txt pour tout autoriser?

116

Mon robots.txtdans Google Webmaster Tools affiche les valeurs suivantes:

User-agent: *
Allow: /

Qu'est-ce que ça veut dire? Je n'ai pas assez de connaissances à ce sujet, alors je cherche votre aide. Je souhaite autoriser tous les robots à explorer mon site Web, est-ce la bonne configuration?

robots.txt

— Raajpoot
source

Allow n'est pas compris par tous les robots d'exploration, utilisez plutôt disavow: (c'est-à-dire sans URL après le:). C'est plus sûr (voir: youtu.be/G29Zt-UH_Ko )

— Jérôme Verstrynge

153

Ce fichier permettra à tous les robots d'accéder

User-agent: *
Allow: /

Cela permet essentiellement à tous les agents utilisateurs (le *) d'accéder à toutes les parties du site (le /).

— Jim
source

11

Correct, sauf si vous devez annuler la partie autorisée. Il n'y a pas de "allow" alors faites que: "User-agent: * Disallow:" comme ils le montrent ici: robotstxt.org/robotstxt.html

— vsdev

Il y a une partie autoriser. Consultez Google docs officiels developers.google.com/search/reference/robots_txt#allow

— Hasan Sefa Ozalp

60

Si vous souhaitez autoriser chaque bot à tout explorer, c'est la meilleure façon de le spécifier dans votre robots.txt:

User-agent: *
Disallow:

Notez que le Disallowchamp a une valeur vide, ce qui signifie selon la spécification :

Toute valeur vide indique que toutes les URL peuvent être récupérées.

Votre méthode (avec Allow: /au lieu de Disallow:) fonctionne également, mais Allowne fait pas partie de la spécification originale du fichier robots.txt , elle n'est donc pas prise en charge par tous les robots (de nombreux robots populaires le supportent, cependant, comme le Googlebot ). Cela dit, les champs non reconnus doivent être ignorés, et pour les bots qui ne les reconnaissent pas Allow, le résultat serait le même dans ce cas de toute façon: si rien n'est interdit d'être crawlé (avec Disallow), tout est autorisé à être crawlé.
Cependant, formellement (selon la spécification d'origine), il s'agit d'un enregistrement non valide, car au moins un Disallowchamp est requis:

Au moins un champ Disallow doit être présent dans un enregistrement.

— unor
source

17

Je comprends que c'est une question assez ancienne et qu'elle a de très bonnes réponses. Mais, voici mes deux cents par souci d'exhaustivité.

Selon la documentation officielle , il existe quatre façons d'autoriser un accès complet aux robots d'accéder à votre site.

Nettoyer:

Spécifiez un matcher global avec un segment d'interdiction comme mentionné par @unor. Donc, vous /robots.txtressemblez à ça.

User-agent: *
Disallow:

Le hack:

Créez un /robots.txtfichier sans contenu. Ce qui par défaut autorise tout pour tous les types de fichiers Bots.

Je m'en fous:

Ne créez pas un /robots.txttout. Ce qui devrait donner exactement les mêmes résultats que les deux ci-dessus.

Le moche:

À partir de la documentation des robots pour les balises méta , vous pouvez utiliser la balise méta suivante sur toutes vos pages de votre site pour faire Botssavoir que ces pages ne sont pas censées être indexées.

<META NAME="ROBOTS" CONTENT="NOINDEX">

Pour que cela s'applique à l'ensemble de votre site, vous devrez ajouter cette balise META pour toutes vos pages. Et cette balise doit être strictement placée sous votre HEADbalise de la page. En savoir plus sur cette balise meta ici .

— Raja Anbazhagan
source

Pas de robots.txt et Wordpress est un mauvais combo, car WordPress génère un robots.txt virtuel. À moins que vous ne soyez satisfait de celui généré par WordPress.

— Jesper

8

Cela signifie que vous autorisez chaque ( *) user-agent / crawler à accéder à la racine ( /) de votre site. Tu vas bien.

— Jordi
source

5

il n'y a pas de champ "Autoriser", selon robotstxt.org/robotstxt.html , je ferais donc attention à l'utiliser. Wikipedia mentionne « Certains robots d' exploration majeurs soutiennent une directive Allow qui peut contrecarrer une directive Disallow suivante. »: En.wikipedia.org/wiki/Robots_exclusion_standard#Allow_directive

— Mackaaij