Comment fonctionne «Noindex:» dans robots.txt?

J'ai parcouru cet article dans mes actualités SEO aujourd'hui. Cela semble impliquer que vous pouvez utiliser des Noindex:directives en plus des Disallow:directives standard dans robots.txt .

Disallow: /page-one.html
Noindex: /page-two.html

Il semble que cela empêcherait les moteurs de recherche d'explorer la page un et les empêcherait d'indexer la page deux.

Cette directive robots.txt est-elle prise en charge par Google et d'autres moteurs de recherche? Est-ce que ça marche? Est-ce documenté?

— Stephen Ostermiller
source

Je ne sais pas ... mais cela pourrait être très utile pour certains. De plus, j'aimerais que le plan du site soit élargi pour être plus communicatif. Entre les robots et les sitemaps, cela devrait être une occasion en or de communiquer aux moteurs de recherche et autres sur un site. Je suis également en faveur d'une possibilité basée sur le texte d'informer les moteurs de recherche sur le site d'une manière différente de la disponibilité dans la recherche, comme la page à propos, comme si vous aviez la chance de parler directement à un réviseur de site Google. Cela pourrait sauver des courbatures et des malentendus. Une chance de dire Ooopppsss, j'ai gaffé - Désolé.

— closetnoc

J'ai l'impression que disallowGoogle empêche de découvrir des liens sur les pages parent et enfant, le cas échéant. Bien qu'il noindexarrête simplement la liste de la page, il n'interrompt pas la découverte tandis que l'interdiction le fait.

— Simon Hayter

@SimonHayter Je sais que c'est comme ça que ça nofollowmarche pour les balises META. Ce serait bien de savoir si c'est aussi le cas pour robots.txt .

— Stephen Ostermiller

Hé @StephenOstermiller non seulement les balises META, c'est la même chose pour <a rel="no-follow">aussi. Je ne vois aucune raison pour laquelle il serait traité différemment. Évidemment, ce n'est pas officiel et il est même recommandé par John Muller de ne pas l'utiliser dans le robots.txt mais à part son tweet, je n'ai pas réussi à trouver beaucoup d'informations à ce sujet.

— Simon Hayter

Il convient de noter que Google ne signale plus la Noindexdirective dans les robots.txtfichiers comme une erreur.

— Aran

Google soutenait officieusement une Noindexdirective dans le fichier robots.txt, mais en 2019, ils ont annoncé que la directive ne fonctionnerait plus.

Voici ce que John Mueller deNoindex: Google dit à propos de robots.txt :

Nous avions l'habitude de prendre en charge la directive sans index dans le fichier robots.txt en tant que fonctionnalité expérimentale. Mais c'est quelque chose sur lequel je ne compterais pas. Et je ne pense pas que d'autres moteurs de recherche l'utilisent.

Avant que Google n'annonce la suppression de la fonctionnalité, deepcrawl.com a fait quelques tests de la fonctionnalité et a découvert que:

Avant 2019, cela fonctionnait toujours avec Google
Il a empêché les URL d'apparaître dans l'index de recherche
Les URL qui n'ont pas été indexées dans robots.txt ont été marquées comme telles dans Google Search Console

Étant donné que Google a abandonné la fonctionnalité, elle ne devrait plus être utilisée.

Utilisez plutôt des balises META de robots bien prises en charge et documentées pour empêcher l'indexation:

<meta name="robots" content="noindex" />

— Stephen Ostermiller
source