Google est toujours en train d'explorer et d'indexer mes anciennes pages de test factices qui sont maintenant 404 introuvables


19

J'ai créé mon site avec des exemples de pages et de données (lorem ipsum, etc.) et Google a exploré ces pages. J'ai supprimé toutes ces pages et ajouté du contenu réel, mais dans les outils pour les webmasters, j'ai toujours beaucoup d'erreurs 404 que Google essaie d'explorer ces pages. Je les ai définis pour "marquer comme résolus" mais certaines pages reviennent toujours en 404.

De plus, beaucoup de ces exemples de pages sont toujours répertoriés lorsque je fais une recherche sur mon site sur Google. Comment les supprimer. Je pense que ces pages non pertinentes nuisent à ma note.

En fait, je voulais effacer toutes ces pages et commencer à indexer mon site en tant que nouveau, mais j'ai lu que ce n'était pas possible? (J'ai envoyé un plan du site et utilisé "Récupérer en tant que Google".)

Réponses:


17

D'accord. Tout d'abord. Ne marquez pas votre 404 comme étant fixe . Vous prolongez réellement le problème. Google va essayer de récupérer une page qui renvoie un 404 plusieurs fois avant d'abandonner. En effet, l'erreur 404 indique une situation temporaire dans laquelle une erreur 410 indique que la page a disparu . Donc, chaque fois que vous marquez un 404 comme étant corrigé , vous dites en fait à Google d'essayer à nouveau, recommençant ainsi le processus d'élimination.

Laissez ces pages 404 pendant un moment et Google cessera de les rechercher et supprimera les pages de l'index. Cela prendra du temps, mais à moins d'une erreur 410, c'est le moyen le plus simple. Une erreur 410 rendrait le processus plus rapide, mais il est plus difficile de présenter une erreur 410 et un 404 est la valeur par défaut, ce qui en fait la solution la plus simple et la plus naturelle.

Vos pages supprimées disparaîtront dans environ 30 à 60 jours si vous pouvez attendre. Cela dépend de la fréquence à laquelle Google visite vos pages. Cela peut prendre plus de temps, mais une fois les 404 trouvés, Google aime d'abord vérifier le site, puis en fonction du nombre de 404, il peut avoir un comportement plus agressif sur votre site.

L'utilisation d'un plan de site ne résout généralement pas les problèmes d'index. Cela ne fait que simplifier la vie des moteurs de recherche. Il n'est jamais considéré comme la liste de toutes les pages d'un site. Si un moteur de recherche lit un plan de site et trouve toujours des pages non répertoriées dans le plan de site, il continuera à indexer ces pages.

Une option, si cela a du sens, consiste à répertorier ces pages dans votre fichier robots.txt. S'il n'y en a pas trop (ce qui signifie quelque chose que vous pouvez faire et que votre fichier robots.txt ne serait pas trop long), ce serait une solution plus rapide. Sinon, j'attendrais et laisserais les erreurs 404 expirer d'elles-mêmes.

Un dernier mot. Tout ira bien. Vraiment. Tout fonctionnera très bien pour vous si vous êtes patient.


1
Ajouter 404 pages à robots.txt ressemble à une mauvaise pratique. Cela ne fera que confondre le robot et prendra beaucoup de tâches ménagères complètement inutiles.
Dorus

@Dorus Pas du tout. L'un n'a rien à voir avec l'autre. L'ajout d'une page au fichier robots.txt supprimera la page de l'index très rapidement. De plus, le moteur de recherche n'essaiera pas d'accéder au fichier et donc pas au 404.
closetnoc

1
Comme vous le dites, si vous l'ajoutez au fichier robots.txt, le moteur de recherche n'essaiera pas d'accéder à la page, mais la page existera toujours. Donc, si un jour vous le supprimez des robots, l'indexation reviendra. Il est préférable de laisser le 404 ou le 410 faire le travail.

@closetnoc Que vouliez-vous dire it is harder to present a 410 error?
Evgeniy

@Evgeniy Une erreur 404 est ce qui est donné par défaut (Apache au moins et IIS plus ancien). Une erreur 410 devrait être intentionnelle et nécessite un certain travail pour se produire. Techniquement, ce n'est pas une tâche difficile, mais elle nécessite une certaine expertise, mais pas beaucoup. À votre santé!!
closetnoc

8

Une fois que vous avez publié une page, Google ne l'oubliera jamais. J'ai des sites dont j'ai supprimé des pages il y a 15 ans. Googlebot revient toujours et vérifie ces pages de temps en temps.

Pour éviter que les pages n'apparaissent dans le moteur de recherche, vos erreurs 404 feront l'affaire. La suppression de la page de l'index peut prendre un jour à Google après que Googlebot l'ait ensuite explorée. Si vous souhaitez le supprimer plus rapidement, renvoyez un état "410 disparu" à la place. Google supprime 410 pages immédiatement après les avoir explorées au lieu d'attendre un jour. Google ne supprime pas 404 pages immédiatement pour empêcher les webmasters de se tirer une balle dans le pied comme décrit par Matt Cutts :

Donc, avec les 404, ainsi que les 401 et peut-être les 403, si nous voyons une page et que nous obtenons un 404, nous allons protéger cette page pendant 24 heures dans le système d'exploration, donc nous attendons en quelque sorte et nous disons que c'était peut-être un transitoire 404, peut-être que ce n'était pas vraiment une page introuvable.

Une autre méthode que vous pourriez envisager est la redirection. 301 rediriger une ancienne page vers une page de remplacement l'empêchera de s'afficher comme une erreur dans les outils pour les webmasters de Google. Cela n'est possible que s'il existe une nouvelle page pour chacune des anciennes pages. La redirection de toutes les pages de test vers votre page d'accueil n'aidera pas, car Google considère que les redirections vers la page d'accueil sont des erreurs "soft 404" qui apparaîtront toujours dans ce rapport.

Avoir 404 erreurs dans les outils pour les webmasters ne vous fera pas de mal. Avoir quelques 404 erreurs sur votre site peut même vous aider car cela montre à Googlebot que votre site est correctement configuré. Voici ce que John Mueller de Google (qui travaille sur les outils pour les webmasters et les sitemaps) a à dire sur les erreurs 404 qui apparaissent dans les outils pour les webmasters :

AIDEZ-MOI! MON SITE A 939 ERREURS DE CRABE !! 1

Je vois ce genre de question plusieurs fois par semaine; vous n'êtes pas seul - de nombreux sites Web comportent des erreurs d'exploration.

  1. Les erreurs 404 sur les URL invalides ne nuisent en rien à l'indexation ou au classement de votre site . Peu importe qu'il y en ait 100 ou 10 millions, ils ne nuiront pas au classement de votre site. http://googlewebmastercentral.blogspot.ch/2011/05/do-404s-hurt-my-site.html
  2. Dans certains cas, les erreurs d'exploration peuvent provenir d'un problème structurel légitime au sein de votre site Web ou CMS. Comment le dites-vous? Vérifiez l'origine de l'erreur d'analyse. S'il y a un lien cassé sur votre site, dans le HTML statique de votre page, cela vaut toujours la peine d'être réparé. (merci + Martino Mosna )
  3. Qu'en est-il des URL géniales qui sont "clairement cassées?" Lorsque nos algorithmes aiment votre site, ils peuvent essayer de trouver plus de contenu sur celui-ci, par exemple en essayant de découvrir de nouvelles URL en JavaScript. Si nous essayons ces «URL» et trouvons un 404, c'est génial et attendu. Nous ne voulons tout simplement rien manquer d'important (insérez ici un mème Googlebot trop attaché). http://support.google.com/webmasters/bin/answer.py?answer=1154698
  4. Vous n'avez pas besoin de corriger les erreurs d'exploration dans les outils pour les webmasters. La fonction «marquer comme fixe» est uniquement pour vous aider, si vous souhaitez suivre vos progrès là-bas; cela ne change rien dans notre pipeline de recherche sur le Web, alors n'hésitez pas à l'ignorer si vous n'en avez pas besoin. http://support.google.com/webmasters/bin/answer.py?answer=2467403
  5. Nous répertorions les erreurs d'exploration dans les outils pour les webmasters par priorité, qui est basée sur plusieurs facteurs. Si la première page d'erreurs d'exploration n'est clairement pas pertinente, vous ne trouverez probablement pas d'erreurs d'exploration importantes sur les pages suivantes. http://googlewebmastercentral.blogspot.ch/2012/03/crawl-errors-next-generation.html
  6. Il n'est pas nécessaire de «corriger» les erreurs d'exploration sur votre site Web. Trouver des 404 est normal et attendu d'un site Web sain et bien configuré. Si vous avez une nouvelle URL équivalente, la redirection vers celle-ci est une bonne pratique. Sinon, vous ne devez pas créer de faux contenu, vous ne devez pas rediriger vers votre page d'accueil, vous ne devez pas robots.txt interdire ces URL - toutes ces choses nous rendent plus difficile de reconnaître la structure de votre site et de le traiter correctement. Nous appelons ces erreurs «soft 404». http://support.google.com/webmasters/bin/answer.py?answer=181708
  7. Évidemment - si ces erreurs d'exploration apparaissent pour les URL qui vous intéressent, peut-être des URL dans votre fichier Sitemap, c'est quelque chose que vous devez prendre immédiatement. Si Googlebot ne peut pas explorer vos URL importantes, elles peuvent être supprimées de nos résultats de recherche et les utilisateurs ne pourront peut-être pas y accéder non plus.

1
Ce n'est pas du tout mon expérience. Google veut un nouvel index et supprime les pages assez rapidement. Ce que je vois qui semble similaire à ce que vous décrivez, c'est où d'autres sites utilisant l'API Google dans le passé, ne rafraîchissent pas leurs données et citeront votre ancien travail. Ce sont souvent des sites indésirables / indésirables et ces citations peuvent apparaître / rester / disparaître / réapparaître. La principale raison pour laquelle je vois cela est que l'API Google était plutôt promiscuité et qu'elle n'est plus, donc les données de spam sont beaucoup plus anciennes car les données plus récentes sont très difficiles à trouver, surtout si vous avez spammé dans le passé.
closetnoc le

1
Googlebot a un mode d'exploration que j'appelle "nous avons trouvé une boîte d'URL dans le sous-sol". Dans ce mode d'exploration, il peut analyser un millier d'URL consécutives de votre site, dont aucune que vous n'avez utilisées depuis des années. Les URL n'ont généralement pas de liens entrants, même à partir de sites de grattage. Ils sont analysés par ordre de longueur, les URL plus courtes sont analysées en premier.
Stephen Ostermiller

C'est peut-être vrai. Google est clairement un big data. Toute grande base de données contient du bruit. C'est inévitable. C'est peut-être ce que vous vivez. Il est possible que différentes bases de données soient rapprochées. Ça a du sens. Mais je vous préviens également que les sites indésirables peuvent apparaître pendant seulement 2 heures avec d'anciens liens et d'anciennes citations. Je vois ça tous les jours. Ils sont principalement en Russie et en Pologne. Ces sites sont utilisés pour jouer aux moteurs de recherche locaux, mais affectent le trafic vers n'importe quel site et peuvent être récupérés par Google. J'en reçois environ 12 dans ma base de données chaque jour. En règle générale, il ne reste que 1 site sur 12 pour une période donnée.
closetnoc le

Qu'est-ce qu'une erreur 939?
Greg Nickoloff

939 est le nombre d'erreurs, ce n'est pas un type d'erreur.
Stephen Ostermiller

5

Google continuera probablement à explorer ces pages pendant longtemps. Les webmasters font des erreurs, ou les sites deviennent indisponibles pour une raison quelconque, donc Google ne supprimera pas le contenu au premier signe d'un 404.

Vous pouvez également servir un 410 Gone à la place. Il s'agit d'un signal beaucoup plus fort (c'est-à-dire délibéré) que la page a littéralement «disparu» et ne revient pas. Cela pourrait inciter Google à supprimer la page des SERP plus tôt.

Je les ai définis pour "marquer comme résolus" mais certaines pages reviennent toujours en 404.

Ils ne sont "résolus" que si vous avez remis la page. Si vous le marquez comme résolu et que la page n'existe pas, l'erreur d'exploration se reproduira simplement. Si la page n'existe pas, laissez-la telle quelle.

Les 404 authentiques ne nuisent pas à votre classement de recherche. Le rapport 404 dans GWT est principalement à votre avantage afin que vous puissiez voir quand les choses tournent mal ... lorsque des pages ne peuvent pas être trouvées qui devraient être trouvées!

Ces pages non pertinentes dans les SERPs sont peut-être une gêne mineure pour vos utilisateurs, cependant, que recherchent-ils pour trouver votre lorem ipsum ?

En utilisant notre site, vous reconnaissez avoir lu et compris notre politique liée aux cookies et notre politique de confidentialité.
Licensed under cc by-sa 3.0 with attribution required.