Google Preview obéit-il à Robots.txt?


11

Parce que ça ressemble à ça. Pour mes sites, nous interdisons le répertoire d'images et les aperçus sont toutes des images manquantes, ce qui donne au site un aspect bancal.

Est-ce le cas et existe-t-il un moyen d'autoriser uniquement le bot de prévisualisation à accéder aux images à l'aide de robots.txt?

EDIT: Il semble que les aperçus soient générés à la fois par le Google Bot normal et par un aperçu du Web Google à la volée, comme mentionné (brièvement) sur le blog du Webmaster Central .

En utilisant un site: la recherche et mon logiciel de surveillance, je pouvais voir quand le bot a frappé mon site et quand cela s'est produit, les images sont apparues très bien dans l'aperçu. Donc, je suppose que le robot normal ignore les images par robots.txt, mais le robot d'aperçu obtient les images de toute façon.

Cette implémentation semble un peu délicate car mes options semblent être:

  1. permettre à Google Bot d'explorer mes images (ce que je ne veux pas faire)
  2. utilisez la balise nosnippet qui bloque l'aperçu, mais également des extraits (ce que je ne veux pas faire)
  3. Laissez apparaître les aperçus bancaux qui peuvent avoir un impact négatif sur les clics

S'il s'agit simplement de ne pas indexer les images, vous pouvez autoriser l'exploration mais servir les images avec un en-tête HTTP x-robots-tag avec "noindex".
John Mueller

@John Mueller On dirait que c'est la réponse. Pourquoi ne pas l'afficher dans la section des réponses?
plntxt

Réponses:


3

Je pense que John Mueller avait raison dans les commentaires.

S'il s'agit simplement de ne pas indexer les images, vous pouvez autoriser l'exploration mais servir les images avec un en-tête HTTP x-robots-tag avec "noindex"

Je ne savais pas que vous pouviez autoriser Google à explorer du contenu sans l'indexer. J'ai mis sa technique en place et j'attends juste de me faire ramper pour voir si ça a marché.

J'accepterai cela comme réponse dans quelques jours, à moins que John ne veuille ajouter ses commentaires à la section des réponses afin qu'il puisse gagner le représentant.


Désolé pour le commentaire-réponse :). Une chose à garder à l'esprit est que ce processus n'est pas vraiment aussi rapide pour le moment. La modification de l'état d'indexation des images est généralement plus lente que la recherche sur le Web, et la mise à jour des images d'aperçu peut également prendre beaucoup plus de temps que la mise à jour du contenu de recherche sur le Web normal (page mise en cache, titre, extrait). En pratique, j'imagine que c'est quelque chose qui prendra de l'ordre de semaines pour que vous puissiez voir les changements - alors soyez patient :).
John Mueller

La patience est la clé. Plusieurs semaines après le changement, certaines images sont désormais visibles, alors qu'il en manque encore. Mais cela semble avoir été la solution à mon problème.
plntxt

2

Comme la majeure partie de l'aperçu est effectuée par le robot d'exploration Google, le blocage de l'exploration d'une partie de votre site aura un impact sur l'aperçu ...

Pourquoi ne voulez-vous pas autoriser Google Bot à explorer vos images?


2
Nous dépensons beaucoup de temps et d'argent à investir dans la photographie de produits et nous préférerions garder nos images hors de la recherche d'images car les personnes qui utilisent la recherche d'images recherchent généralement une image et ne cherchent pas à acheter un produit. Si nos images étaient dans l'index, il serait plus facile pour les concurrents de les voler.
plntxt

1
Vous pouvez essayer de filigraner vos photos et / ou la stéganographie d'un copyright à l'intérieur et / ou filtrer l'affichage par renvoi ...
Pascal Qyy

1
@G. Qyy Ou je pourrais payer un nombre infini de singes pour rechercher sur le Web des images protégées par des droits d'auteur.
plntxt

@Jim: Ou tu peux garder précieusement tes photos sur des papiers, et jamais, jamais les mettre sur internet ... ^^
Pascal Qyy

1
Bon point - rien ne peut protéger complètement vos photos mais je préférerais vraiment ne pas les avoir dans l'index de Google. Je ne suis pas un fan du tatouage, et le moyen le plus rentable de réduire nos images ailleurs est de les garder hors de l'index.
plntxt

2

Ce qui suit est une solution technique qui peut ou non simplement s'appliquer à votre site.

Il est possible (voire probable) que Google propose un moyen de le faire avec seulement quelques conseils dans les métadonnées ou le fichier robots.txt, mais d'ici là ...


Étape 1.

Créez un service / servlet de redirection pour les images de première page.

C'est à dire une URL comme

/frontpageimages/[image name]

qui fait une redirection côté serveur vers

/images/[image name]

Étape 2.

Faites réécrire tous les liens d'image sur votre page d'accueil (et uniquement la page d'accueil) pour passer par le service de redirection à partir de l'étape 1 plutôt que de vous lier directement à l'image.

Étape 3.

Assurez-vous que le fichier robots.txt permet à Googlebot d'explorer /frontpageimages/


Cela devrait garantir que Google peut explorer toutes les images qu'il rencontre sur votre page d'accueil tout en laissant seules les images sur d'autres pages.

Bien que le service de redirection puisse (en théorie) être utilisé pour explorer toutes vos images sans violer techniquement votre robots.txt, ce n'est pas quelque chose que des robots bien comportés (comme googlebot) vont faire. Et les robots mal élevés ne vont pas se soucier de robots.txt.


Qui veut seulement que sa première page affiche un aperçu? Je sais que je veux que chaque page affiche un bon aperçu. Si vous faites cela pour chaque page, vous niez essentiellement le but de bloquer les images en premier lieu.
John Conde

@John Vous avez raison. Dans ce cas, vous souhaitez que Google vous indexe ou non.
Kris
En utilisant notre site, vous reconnaissez avoir lu et compris notre politique liée aux cookies et notre politique de confidentialité.
Licensed under cc by-sa 3.0 with attribution required.