Robots.txt: dois-je interdire une page qui n'est liée nulle part?


12

Il y a des pages sur mon site Web que je souhaite que l'utilisateur puisse visiter uniquement si je lui donne l'URL.

Si je n'autorise pas les pages individuelles robots.txt, elles seront visibles par quiconque les examinera.

Ma question est la suivante: si je ne les relie pas de n'importe où, ou du moins à partir d'une page indexée, serait-il toujours atteint par les robots d'exploration d'une manière ou d'une autre?

Réponses:


11

Vous ne voulez pas du tout que la page apparaisse dans les SERPs ...

Ne pas interdire dans robots.txt. Ajoutez plutôt une balise META noindex (ou un en-tête HTTP X-Robots-Tag) à vos pages.

Comme le suggère j0k, vos pages pourraient être trouvées d'une manière ou d'une autre. Rapports statistiques, listes de répertoires, etc ...

L'interdiction dans robots.txt empêche la page d'être explorée, mais pourrait toujours être indexée et apparaître comme un lien URL uniquement dans les SERP. Quelque chose comme:

Lien URL uniquement dans les SERPs de Google

Une balise META noindex empêche la page d'apparaître du tout dans les SERPs - mais Google doit être en mesure d'explorer la page afin de voir la balise META noindex - afin qu'elle ne puisse pas être interdite dans robots.txt!

S'il y a quelque chose sur la page qui ne doit pas être accessible au public, alors les pages doivent être derrière une sorte d'authentification.


Une chose à garder à l'esprit est que si c'est vraiment quelque chose de confidentiel, le "cacher" avec une URL est une mauvaise pratique quelle que soit la méthode que vous choisissez. L'utilisation d'une authentification appropriée est vraiment importante dans un cas comme celui-ci.
John Mueller

1
De plus, les boutons de médias sociaux (J'aime / Partager / + 1 / divers signets) récupèrent également le contenu et peuvent afficher l'URL, le titre et l'extrait de manière publique, même si l'URL a un noindex (ou est interdite par les robots) .SMS). La seule façon d'empêcher cela est d'utiliser l'authentification.
John Mueller

2

Eh bien, je pense que vous avez un bon robot qui lit le fichier robots.txt et suit la directive. Et un autre qui ne suit pas la directive.

Et comment prévoyez-vous de donner cette URL? Par e-mail, via Facebook ou Twitter? Tous ces services analysent les informations que vous envoyez. Gmail analyse les e-mails que vous recevez pour diffuser des annonces. Ainsi, votre URL sera en quelque sorte explorée.

Certaines personnes utilisent la barre d'outils Google (ou toute autre barre d'outils du moteur de recherche). Il existe une option (cochée par défaut si je me souviens bien) qui permet à la barre d'outils d'envoyer toutes les URL que vous visitez à Google. C'est une autre façon pour Google de voir le Web caché. Donc même si vous avez dit à la personne de ne pas partager l'url, elle le fera implicitement (grâce à la barre d'outils).

Je pense que nous pouvons trouver beaucoup d'autres possibilités.

Vous pouvez donc l'ajouter à robots.txt mais également fournir des méta supplémentaires comme noindex, nofollow, etc.

Éditer:

La suggestion de w3d à propos de robots.txt me semble bonne. Alors ne l'ajoutez pas à robots.txt et fournissez votre propre balise META.


Je les relie par e-mail. Oui, je prévoyais de fournir une méta appropriée. Donc, votre suggestion est de les ajouter aux robots ou non? Merci
martjno

Je recommanderais de l'ajouter à robots.txt. Mais la suggestion de w3d a changé d'avis. Ne l'ajoutez pas mais fournissez la balise META appropriée.
j0k

0

En plus des commentaires ci-dessus, je recommanderais également l'authentification HTACCESS au minimum - de cette façon, vous pouvez donner aux individus une combinaison nom d'utilisateur / mot de passe pour la durée de leur droit de voir les pages.

S'il y a quelque chose avec des problèmes de confidentialité, vous devez envisager un script de contrôle de connexion approprié.

Une page non protégée (même si vous pensez qu'elle est bien cachée) fera son chemin dans la nature.

En utilisant notre site, vous reconnaissez avoir lu et compris notre politique liée aux cookies et notre politique de confidentialité.
Licensed under cc by-sa 3.0 with attribution required.