Comment puis-je empêcher les erreurs Soft 404 de s'accumuler pour la page «Aucun résultat»?

Récemment, j'ai remarqué que j'avais une liste croissante d'erreurs Soft 404 dans Google Webmaster Tools. Ils sont tous destinés aux pages de résultats de recherche générées dynamiquement qui indiquent "Aucune correspondance trouvée".

Je ne comprends ce que Google entend par soft 404 et pourquoi ils sont Signalement pour ces pages. J'ai donc ajouté <meta name="robots" content="noindex">à ces pages.

Cependant, Google signale toujours de nouvelles erreurs Soft 404 pour les pages qui utilisent la balise META noindex .

Pourquoi Google signale-t-il une erreur pour une page que je lui ai dit de ne pas indexer?

Le problème est qu'avec toutes ces erreurs indésirables, je ne peux pas voir s'il y a de vrais problèmes qui doivent être corrigés.

Certains ont dit que ces pages devraient renvoyer un code d'état 404. Mais cela déplace simplement le problème vers l'onglet des erreurs 404. En outre, Google renvoie le code d'état 200 pour sa page sans résultats .

Je ne veux pas bloquer l'accès avec robots.txt parce que je veux que les liens sur ces pages soient suivis et je veux que Google voie la balise META noindex . De plus, il n'y a aucun modèle que je puisse utiliser pour les bloquer.

Google a trouvé ces URL en premier lieu parce que le contenu existait auparavant, mais a depuis été supprimé. Je ne peux pas retourner un code d'état 410, car mon code PHP n'a aucun moyen de connaître la raison pour laquelle aucun résultat n'a été trouvé.

Puis-je faire quelque chose pour mieux voir les vrais problèmes?

google-search-console noindex soft-404

— toxalote
source

Comment Google trouve-t-il ces URL de recherche? Les reliez-vous quelque part?

— DisgruntledGoat

Voir la question de suivi: webmasters.stackexchange.com/q/55624/33777

— toxalot

@DisgruntledGoat, je l'ai vu sur beaucoup de mes sites Web. Googlebot a été autorisé à effectuer des recherches. Je ne sais pas trop si c'était vraiment le problème. Mais je n'ai jamais pu trouver une autre source pour leurs recherches étranges .

— Alexis Wilke

Vous devez empêcher Google d'explorer les pages de recherche de site. Google ne veut pas explorer votre site de recherche du tout . Voici le blog de Matt Cutts de Google sur le problème: Résultats de recherche dans les résultats de recherche par Matt Cutts le 10 mars 2007 . Google pénalise désormais activement les sites qui permettent aux résultats de recherche de leur site d'être explorés et d'apparaître dans les SERPs de Google. En permettant à Googlebot d'explorer vos pages de résultats de recherche, vous risquez de perdre tout votre trafic de parrainage Google. Une astuce préférée d'un critique Google est d'utiliser la recherche de votre site pour des termes de spam tels que "Viagra". Lorsqu'ils voient une page explorable comme résultat (même si elle indique "aucun résultat pour le Viagra trouvé"), ils appliqueront une pénalité manuelle contre votre site en tant que site de spam.

Vous devez mettre votre recherche sur le site robots.txt. Assurez-vous simplement que Googlebot peut toujours explorer vos pages de contenu. Vous cesserez alors de recevoir de nouvelles erreurs 404 logicielles.

Un grand nombre d'erreurs 404 (même des erreurs 404 faibles) ne nuisent pas au classement de votre site. Google signale les erreurs sur toutes les pages qu'il peut trouver et explorer, que vous souhaitiez ou non qu'elles soient indexées et que vous y liez ou non. Ils le font parce que les rapports d'erreurs sont uniquement à votre avantage et ils pensent que vous devriez être pleinement informé.

Voici ce que John Mueller de Google a à dire à ce sujet :

Les erreurs 404 sur les URL invalides ne nuisent en rien à l'indexation ou au classement de votre site. Peu importe qu'il y en ait 100 ou 10 millions, ils ne nuiront pas au classement de votre site. http://googlewebmastercentral.blogspot.ch/2011/05/do-404s-hurt-my-site.html

Dans certains cas, les erreurs d'exploration peuvent provenir d'un problème structurel légitime au sein de votre site Web ou CMS. Comment le dites-vous? Vérifiez l'origine de l'erreur d'analyse. S'il y a un lien cassé sur votre site, dans le HTML statique de votre page, cela vaut toujours la peine d'être réparé. (merci + Martino Mosna)

Qu'en est-il des URL géniales qui sont "clairement cassées?" Lorsque nos algorithmes aiment votre site, ils peuvent essayer de trouver plus de contenu sur celui-ci, par exemple en essayant de découvrir de nouvelles URL en JavaScript. Si nous essayons ces «URL» et trouvons un 404, c'est génial et attendu. Nous ne voulons simplement rien manquer d'important (insérez ici un mème Googlebot trop attaché). http://support.google.com/webmasters/bin/answer.py?answer=1154698

Vous n'avez pas besoin de corriger les erreurs d'exploration dans les outils pour les webmasters. La fonction «marquer comme fixe» est uniquement pour vous aider, si vous souhaitez suivre vos progrès là-bas; cela ne change rien dans notre pipeline de recherche sur le Web, alors n'hésitez pas à l'ignorer si vous n'en avez pas besoin. http://support.google.com/webmasters/bin/answer.py?answer=2467403

Nous répertorions les erreurs d'exploration dans les outils pour les webmasters par priorité, qui est basée sur plusieurs facteurs. Si la première page d'erreurs d'exploration n'est clairement pas pertinente, vous ne trouverez probablement pas d'erreurs d'exploration importantes sur les pages suivantes. http://googlewebmastercentral.blogspot.ch/2012/03/crawl-errors-next-generation.html

Il n'est pas nécessaire de «corriger» les erreurs d'exploration sur votre site Web. Trouver des 404 est normal et attendu d'un site Web sain et bien configuré. Si vous avez une nouvelle URL équivalente, la redirection vers celle-ci est une bonne pratique. Sinon, vous ne devez pas créer de faux contenu, vous ne devez pas rediriger vers votre page d'accueil, vous ne devez pas robots.txt interdire ces URL - toutes ces choses nous rendent plus difficile de reconnaître la structure de votre site et de le traiter correctement. Nous appelons ces erreurs «soft 404». http://support.google.com/webmasters/bin/answer.py?answer=181708

Évidemment - si ces erreurs d'exploration apparaissent pour les URL qui vous intéressent, peut-être des URL dans votre fichier Sitemap, c'est quelque chose que vous devez prendre immédiatement. Si Googlebot ne peut pas explorer vos URL importantes, elles peuvent être supprimées de nos résultats de recherche et les utilisateurs ne pourront peut-être pas y accéder non plus.

— Stephen Ostermiller
source

Ce n'est pas une «astuce» pour empêcher l'indexation des pages de recherche inutiles. Il n'y a rien de plus frustrant que de rechercher un terme sur Google et d'obtenir une liste de recherches plutôt que des résultats réels. Google pénalise donc ce comportement. Quand on y pense du point de vue de l'utilisateur, il devient évident que les résultats de recherche transitoires ne doivent pas être indexés mais les pages de contenu elles-mêmes. C'est pourquoi vous devez utiliser quelque chose comme un plan de site pour les indexeurs et utiliser les pages de recherche dynamique comme raccourci uniquement pour les utilisateurs.

— JamesRyan

Alors pourquoi Google indexe-t-il les résultats des pages jaunes et autres?

— toxalot

Je ne pense pas que Google veuille indexer la plupart des sites de pages jaunes, du moins pas les mettre en avant dans les résultats de recherche. superpages.com a son siège social en bas de la rue. Il y a quelques années, Google l'a déclassé à peu près partout. J'interviewais soudainement leurs développeurs qui nous recherchent de nouveaux travaux.

— Stephen Ostermiller

@StephenOstermiller Avez-vous une référence à l'endroit où Google dit qu'ils pénalisent les sites qui autorisent l'exploration des pages de recherche? Je ne trouve rien à ce sujet.

— alexp

En ce qui concerne le Viagra, ce n'est pas bon pour moi. Mon site suit les litiges et il y a eu beaucoup de véritables disputes juridiques sur les brevets liés au Viagra. Comment empêchent-ils ces faux positifs?

— speedplane