Pouvons-nous utiliser l'expression régulière dans le fichier robots.txt pour bloquer les URL?


23

J'ai quelques URL générées dynamiquement.

Puis-je utiliser l'expression régulière pour bloquer ces URL dans un fichier robots.txt?


Il serait également utile de définir des balises META robots sur les pages que vous ne souhaitez pas explorer / indexer.
Andrew Lott

@AndrewLott Dans mon cas, j'ai plus de 500 pages, alors j'ai pensé utiliser l'expression
régulière

Ensuite, une règle dans le code de votre site est probablement plus utile.
Andrew Lott

Réponses:


27

Les expressions régulières ne sont pas valides dans robots.txt, mais Google, Bing et certains autres bots reconnaissent certaines correspondances de modèles.

Supposons que si vous vouliez bloquer toutes les URL qui ont examplen'importe où dans l'URL, vous pouvez utiliser une entrée générique *

User-agent: *
Disallow: /*example

Vous pouvez également utiliser le signe dollar $ pour spécifier que les URL doivent se terminer de cette façon. Donc, si vous souhaitez bloquer toutes les URL qui se terminent par example, mais pas les URL qui ont un exampleautre endroit dans l'URL, vous pouvez utiliser:

User-agent: *
Disallow: /*example$

Plus d'informations détaillées sur Google peuvent être trouvées ici: Spécifications Robots.txt , Bing ici: Comment créer un fichier Robots.txt et il y a un guide interactif sur Moz ici


Parfait, * fonctionne très bien, testé dans l'outil de maître Web .. Merci Max ... :)
Sudheera Njs

Je vous déconseille d'utiliser des directives trop sophistiquées dans votre fichier robots.txt; ce sont vraiment, vraiment difficiles à déboguer plus tard. Essayez de garder les choses aussi simples que possible. N'oubliez pas que le fichier robots.txt est sensible à la casse, vous devrez donc peut-être ajouter des versions alternatives des directives en fonction de votre site.
John Mueller

serait bien si regex était supporté
SuperUberDuper
En utilisant notre site, vous reconnaissez avoir lu et compris notre politique liée aux cookies et notre politique de confidentialité.
Licensed under cc by-sa 3.0 with attribution required.