Les robots refusés par domaine sont toujours répertoriés dans les résultats de recherche

9

Ainsi, sur tous nos sites qui ne sont pas confrontés à la recherche, nous avons appliqué un fichier robots.txt (par Comment exclure un site Web des résultats de recherche Google en temps réel?, Ou toute autre question similaire).

Cependant, si les termes de recherche sont suffisamment spécifiques, le domaine lui-même peut être trouvé via les résultats. Un exemple de ceci peut être trouvé ici . Comme vous pouvez le voir sur le lien, le domaine lui-même peut être trouvé (le contenu n'est pas mis en cache, mais le domaine est répertorié). De plus, effectuer une recherche avec site:hyundaidigitalmarketing.com3 résultats devrait. La vérification des backlinks en fournit également quelques-uns, mais je ne peux évidemment pas les empêcher (la liaison est autorisée dans le contexte) ou contrôler la façon dont ceux-ci sont gérés (ne peut pas dire à l'hôte d'ajouter nofollow, noindex).

Maintenant, je sais que c'est un cas grave, mais les clients de mes entreprises font exactement cela. En fait, nos domaines sont assez bons, donc même des recherches apparemment arbitraires donnent des résultats pertinents. Maintenant, je dois rédiger un rapport sur comment / pourquoi cela se produit.

Je me tourne donc vers le merveilleux réseau Stack Exchange pour m'aider à comprendre ce qui me manque ou à comprendre ce qui se passe. Les liens vers les articles de l'industrie sont extrêmement utiles, mais tout ce que vous pouvez donner est évidemment formidable. J'ai l'intention d'offrir des primes du mieux que je peux pour en faire une réponse vers laquelle se tourner à l'avenir.

Edit: J'ai ouvert une prime sur cette question dans l'espoir d'obtenir plus de réponses à ce sujet. J'ai également fourni les résultats de mes propres recherches ci-dessous.

seo robots.txt

— Kevin Peno
source

5

Je vais devoir chercher la source de ces informations mais apparemment robots.txt n'empêchera pas nécessairement une page d'être indexée. Mais l'en-tête HTTP x-robots-tag fonctionne apparemment.

Si vous utilisez Apache, vous pouvez bloquer les pages en bloc en utilisant cette ligne dans un fichier .htaccess:

Header set x-robots-tag: noindex

Essayez cela et voyez ce qui se passe.

Éditer

(Trouvé une source . Pas celle dont je me souviens mais ça marche).

— John Conde
source

Bonjour et merci pour la réponse. En quoi cela diffère-t-il de la balise meta robots déjà implémentée dans la sortie html du site utilisé comme exemple ci-dessus? Pour autant que je sache, cela ne sert que de remplacement, vous n'avez donc pas besoin de le mettre sur chaque page.

— Kevin Peno

@Kevin, Ils devraient être les mêmes en termes d'efficacité. Ce serait simplement plus facile à gérer comme vous l'avez dit.

— John Conde

4

Je pense que Matt Cutts en a parlé. Si ma mémoire est correcte, cela a à voir avec la liaison. En savoir plus: http://www.google.com/support/forum/p/Webmasters/thread?tid=2720810fa226e9c8&hl=en

Vous pouvez les supprimer avec l'outil de suppression de Google.

— Joe
source

Vous pouvez tous les voir avec: site: gmpackageguide.com Il n'y a pas beaucoup d'URL. Je suppose qu'ils étaient dans l'index avant que les robots ne soient interdits. Je voudrais juste les supprimer.

— Joe

À l'avenir, je demanderais aux concepteurs de sites Web de ne toujours inclure aucun index, aucun suivi dans la section de tête de page Web. Je soupçonne que le CMS que vous utilisez peut le faire.

— Joe

@Joe - d'accord, mais je recommande noindex, followque tout PageRank soit distribué à partir des liens de retour qui peuvent se produire.

— Mike Hudson

@Joe & @Mike, Merci pour l'information. Cependant, prenez le site: hyundaidigitalmarketing.com. J'ai lancé ce site moi-même il y a un an. Il comprend à la fois un fichier robots.txt et l'en-tête méta. Cependant, comme vous pouvez le voir sur un formulaire effectuant une recherche sur Google avec site:hyundaidigitalmarketing.comou pour les termes hyundai digital marketing, le domaine lui-même continuera à apparaître comme le premier et le meilleur résultat. Je dois empêcher ça.

— Kevin Peno

En outre, une recherche de links:hyundaidigitalmarketing.comliens retour montre. Je ne peux évidemment pas empêcher ou contrôler les backlinks de formatage ET ils pourraient être valides. Si un lien vers le site provoque cela, je dois comprendre comment / pourquoi afin de pouvoir l'expliquer à mes supérieurs. J'espère que cela explique un peu mieux ma question.

— Kevin Peno

3

Sur la base de mes recherches sur le sujet, j'ai constaté qu'il n'y a pas de moyen garanti à 100% d'empêcher l'indexation et la mise en cache des données, mais vous pouvez vous en approcher (en supposant que vous vouliez faire face à l'augmentation du trafic de robots). Voici comment j'ai interprété les informations.

On pourrait penser que le fichier robots.txt est utilisé pour définir des informations sur le robot à l'échelle du site et que des balises META sont utilisées pour des détails spécifiques à la page. Je pense que l'esprit derrière le 2 est exactement cela, mais ce n'est pas le cas dans la pratique.

Ne créez pas de fichier robots.txt

Cela fonctionne avec tous les fournisseurs de recherche majeurs pour empêcher le contenu d'apparaître sur les SERP, mais ne pas empêcher l' indexation. Cela empêche également les robots d'explorer vos pages, de sorte que toutes les balises META du robot (voir ci-dessous) sont également ignorées. Pour cette raison, vous ne pouvez pas utiliser les 2 ensemble et c'est pourquoi, si vous souhaitez empêcher l'indexation, vous ne devez pas utiliser un fichier robots.txt.

Note latérale: Google prend en charge l'utilisation de Noindex: /dans robots.txt, mais il n'est pas documenté (qui sait quand il se cassera) et ne sait pas si cela fonctionne pour quelqu'un d'autre.

Utilisez des en-têtes HTTP ou des balises HTML META pour tout empêcher

Contrairement au fichier robots.txt, la balise Meta robots (et l'en-tête HTTP) est largement prise en charge et, étonnamment, riche en fonctionnalités. Il est conçu pour être défini sur chaque page, mais l'adoption récente de l'en- X-Robots-Tagtête facilite la définition à l'échelle du site. Le seul inconvénient de cette méthode est que les robots exploreront votre site. Cela peut être limité en utilisant nofollow, mais tous les bots ne respectent pas vraiment nofollow.

J'ai trouvé une tonne d'informations dans ce blog obsolète . Sa version d'origine date de 2007, mais, car de nombreuses informations à ce sujet sont des fonctionnalités plus récentes depuis, elle semble être mise à jour régulièrement.

En résumé, vous devez envoyer un en-tête HTTP de X-Robots-Tag: noindex,nofollow,noodp,noydir. Voici la répartition des raisons:

nofollowdevrait limiter le nombre de pages explorées sur votre site, réduisant ainsi le trafic des robots. * noindexindique aux moteurs de ne pas indexer la page.
Maintenant, vous pourriez supposer que cela noindexpourrait suffire. Cependant, j'ai constaté que même si vous dites que noindexvotre site peut être indexé en raison d'autres sites qui y pointent. La meilleure façon d'empêcher les liens de sites courants de Y! Répertoire ( noydir) et Open Directory ( noodp).
L'utilisation de l'en-tête HTTP applique également les données des robots aux fichiers, images et autres fichiers non HTML! YAY!

Cela fonctionnera dans 99% des cas. Gardez cependant à l'esprit qu'il est toujours possible d'être indexé dans certains cas par certains fournisseurs. Google prétend respecter pleinement noindex, mais j'ai mes soupçons.

Enfin, si vous êtes indexé, ou avez déjà été indexé, le seul moyen de désindexer vos informations est de suivre les différents moyens de chaque fournisseur pour demander la suppression du site / de l'url. Évidemment, cela signifie que vous voudrez probablement surveiller les sites / pages en utilisant quelque chose comme Google Alertes (merci @Joe).

— Kevin Peno
source

3

Je pense que votre problème de base est les liens de retour vers le site, car ils donnent aux moteurs de recherche un point d'entrée sur le site et les en rendent conscients. Ainsi, bien qu'ils n'affichent pas de description du site, ils peuvent afficher l'URL s'ils pensent que c'est la meilleure correspondance pour le résultat.

Lisez cet article lié à celui publié par @joe: Matt Cutts garde Google hors

Le bit clé est:

Il y a une bonne raison à cela: à l'époque où j'ai commencé chez Google en 2000, plusieurs sites Web utiles (eBay, New York Times, California DMV) avaient des fichiers robots.txt qui interdisaient toute récupération de page. Maintenant, je vous demande, que sommes-nous censés retourner comme résultat de recherche lorsque quelqu'un fait la requête [california dmv]? Nous serions plutôt tristes si nous ne renvoyions pas www.dmv.ca.gov comme premier résultat. Mais rappelez-vous: nous n'étions pas autorisés à récupérer les pages de www.dmv.ca.gov à ce stade. La solution consistait à montrer le lien non analysé lorsque nous avions un niveau élevé de confiance qu'il s'agissait du lien correct. Parfois, nous pouvions même extraire une description du projet Open Directory, afin que nous puissions donner beaucoup d'informations aux utilisateurs même sans aller chercher la page.

Les recherches que vous avez effectuées couvrent également bien les choses calmes et les réponses de @john et @joe sont toutes deux pertinentes. J'ai inclus un lien ci-dessous qui donne quelques conseils supplémentaires sur le blocage des moteurs de recherche. La seule façon dont je peux penser pour bloquer complètement le site serait d'ajouter une forme de protection par mot de passe devant le site qui doit être complétée avant que le contenu ne soit affiché.

Conseils SEOMoz pour ne pas apparaître dans la recherche

— Matthew Brookes
source

Merci d'avoir ajouté à la discussion. La protection par mot de passe fonctionne bien pour empêcher l'exploration, mais n'empêche pas l'indexation. Étant donné que le fichier robots.txt fait un bon travail pour arrêter cela, le seul avantage de la protection par mot de passe est qu'il empêchera les regards indiscrets de le trouver. Malheureusement, la plupart des contenus ne sont pas suffisamment sensibles pour être «protégés» et ne garantissent certainement pas les problèmes d'utilisation qu'ils créent. [suite ...]

— Kevin Peno

Une analogie que j'ai trouvée la plus utile dans ma recherche était une comparaison avec les annuaires téléphoniques. Si les moteurs de recherche sont des annuaires téléphoniques et que vous demandez à ne pas être répertorié, vous pouvez demander à ne jamais être répertorié, et ils devraient respecter cela. Malheureusement, les moteurs de recherche agissent de façon plus similaire aux entreprises auxquelles d'autres sociétés vendent des contacts, ce qui est à son tour donné à toute personne désireuse de payer / demander.

— Kevin Peno

@Kevin je comprends ce que vous dites, malheureusement je ne pense pas qu'il sera possible d'être complètement supprimé avec la façon dont les moteurs de recherche fonctionnent actuellement, le mieux que vous puissiez espérer n'est qu'une liste d'URL dans ce cas.

— Matthew Brookes

Oh, je comprends cela maintenant (après la recherche). Aussi, veuillez ne pas prendre mon commentaire à votre réponse sous un jour négatif. J'apprécie votre ajout au sujet, je répondais simplement pour ajouter les inconvénients de la mise en œuvre d'une telle solution, en plus d'ajouter un peu de plaisanteries hors sujet, je suppose. : P

— Kevin Peno