Utilisation de rel = canonical avec syndication


21

Je travaille sur un site qui permet la syndication de contenu (via des API et des vidages de données). Nous constatons qu'un certain nombre de sites qui republient notre contenu apparaissent plus haut dans les résultats de recherche Google, même si nous sommes l'éditeur d'origine. C'est frustrant.

Nous envisageons de faire rel=canonical partie de nos exigences d'attribution. Google dit qu'il est légitime de l'utiliser sur plusieurs domaines et dans des scénarios de syndication.

L'avez-vous fait et Google considère-t-il l'URL canonique dans les classements de recherche? Cela nous aidera-t-il à réduire ce "spam" SERP?


1
Ce que vous décrivez n'est pas du spam. Ce sont les gens qui font ce que vous leur demandez de faire: syndiquer votre contenu. Le spam est une publicité par e-mail non sollicitée et des pages Web créées dans le seul but de bombarder des personnes avec des publicités au lieu de créer quoi que ce soit de valeur. Si ce sont les types de sites qui syndiquent votre contenu, vous devez repenser votre modèle de syndication, ou cela se reflétera mal sur votre site (uniquement par association). Mais simplifier un meilleur classement de recherche que vous ne crée pas de spam sur le site.
Lèse majesté

@ Lèse vraiment? ces sites semblent être en violation directe de la règle du "peu ou pas de contenu original" établie par Google lui-même google.com/support/webmasters/bin/answer.py?answer=66361
Jeff Atwood

@Jeff: À quels sites faites-vous spécifiquement référence? Je parle de l'acte d'utiliser la syndication Web elle-même, ce que font de nombreux sites légitimes. Un site de spam n'a pas à utiliser de contenu syndiqué, et le simple fait d'utiliser un contenu syndiqué ne fait pas d'un site un site de spam (même s'il obtient un meilleur classement que vous). Par exemple, de nombreuses publications d'actualités majeures utilisent le contenu syndiqué d'AP pour compléter leur propre contenu. S'agit-il d'un contenu en double? Oui. Mais est-ce du spam? Non. Et je ne pense pas non plus qu'AP fasse la promotion du spam.
Lèse majesté

@ Les mots clés de Lèse sont ici en complément de leur propre contenu . Si TOUT le contenu est copié, qu'est-ce qui a de la valeur ou de l'intérêt est créé, exactement?
Jeff Atwood

1
@Jeff: Il ne ressort pas clairement de la question de Matt que ce sont les sites auxquels il fait référence. Il a simplement déclaré qu'il existe des sites republiant son contenu (qui est le but de fournir une API de syndication) qui sont mieux classés que le contenu original. Pour moi, cela ne signifie pas que ce sont (nécessairement) des sites de spam. Mais peut-être que mon interprétation de la question est incorrecte.
Lèse majesté

Réponses:


10

Jeff a 100% raison dans tout ce qu'il a dit.

Un autre problème lié à la demande d'un site de syndication à utiliser <link rel="canonical" href="http://example.com/foo">est qu'il indique à Google que la page de syndication ne devrait pas obtenir de Page Rank et http://example.com/foodevrait plutôt l'intégrer.

Cela crée deux problèmes majeurs.

  1. La page de syndication n'apparaîtrait pas du tout dans les recherches Google car elle n'a pas de classement de page. Le site de syndication n'en serait pas le moins du monde content. Rendant improbable qu'ils seraient prêts à faire le changement s'ils le pouvaient.
  2. Cela pourrait ne pas affecter votre site comme vous le souhaitez, car vous n'êtes effectivement pas lié au site de syndication. Je me demande comment Google gérerait cela. Il est vrai qu'ils autorisent le cross-site rel = "canonical" mais je crois que le but de cela est de migrer le site et d'avoir plusieurs sites sous un même hôte avec le même contenu pour avoir une page de facto contre un tas de pages similaires / mêmes.

Ce sont de bons points. Je pense que la syndication est un domaine où il y a une raison légitime pour qu'il y ait du contenu en double. Dans ce cas, il vaut mieux laisser le contenu en double et accepter que c'est ça la syndication. Bien sûr, Google devrait idéalement privilégier la page d'origine plutôt que les pages des partenaires de syndication. Peut-être qu'une nouvelle balise doit être créée, quelque chose entre rel="canonical"et la <cite>balise HTML5 . De cette façon, les moteurs de recherche peuvent savoir quelle page est l'original pour le contenu en double légitime.
Lèse majesté

confirmé, voir ma réponse de Matt Cutts ci-dessous.
Jeff Atwood

14

Ma recherche a indiqué que l'exigence d'un lien de retour - et que le lien ne doit PAS être non suivi - était de loin le critère le plus important.

Si le site de "syndication" n'attribue pas le contenu avec des liens vers l'original qui sont valides pour les moteurs de recherche, les moteurs de recherche ont beaucoup plus de mal à retracer l'origine du contenu et doivent appliquer une fonction complexe "rechercher du contenu textuel en double sur l'ensemble du site". l'ensemble de l'heuristique Internet.

Je n'en suis pas plus sûr que nécessaire.

Vidéo connexe de Matt Cutts

http://www.youtube.com/watch?v=x8XdFb6LGtM

Matt a dit que ce serait une bonne idée d'utiliser rel = "canonical" pour pointer vers la page d'où l'article est originaire - tout comme il a souvent suggéré que les articles syndiqués incluent des liens conventionnels (c'est-à-dire une <a>balise nchor) pointant vers le article original.

Gardez à l'esprit que canonique ne se contente pas de gifler rel="canonical"une <a>étiquette; c'est plus comme ça:

<html>
    <head>
         <link rel="canonical" href="http://example.com/foo">
    </head>
...

Cela nécessite donc un travail différent, vous devez modifier chaque en-tête de page. Je ne suis pas sûr que beaucoup de ces "syndicateurs" auront ce niveau de contrôle par rapport à un simple lien ( sans nofollow!) Vers la source.


Je suggère également de lire l'entrée de blog de Jeff sur ce sujet, Defending Attribution Required - blog.stackoverflow.com/2010/08/defending-attribution-required
Scott Mitchell

@scott note que nous n'avions pas besoin à l'origine d'un lien suivi, mais nous avons changé cela parce que l'araignée de Google manquait des trucs qui étaient dans notre vidage de données que certains grattoirs utilisent ... et un lien manquant qui n'est pas suivi n'aide pas à le remettre dans l'index de Google!
Jeff Atwood,

@Jeff: Sur une légère tangente, une chose qui m'a dérangé est que les liens dans une réponse Stackoverflow ont rel = "nofollow". Les utilisateurs avec un certain représentant ne devraient-ils pas bénéficier de l'absence de rel = "nofollow" sur les liens qu'ils publient?
Scott Mitchell

@scott le champ du site Web de votre profil, sur n'importe quel site Web Stack Exchange, le nofollow a été supprimé à 2k rep par courtoisie.
Jeff Atwood

1
@Jeff, je parle des liens dans une réponse Stackoverflow. Par exemple, si je fais une vue / source sur cette page même, je vois que les liens dans votre réponse (comme celui vers YouTube) ont rel = "nofollow". Je présume que cela vise à dissuader les spammeurs, mais en même temps, il semble que vous manquez une occasion d'améliorer la pertinence des résultats de recherche pour les autres, sans parler de ne pas «accorder de crédit» (aux yeux de Google) à la personne qui a écrit le article / entrée de blog / etc. qui est lié à.
Scott Mitchell

2

Ajout d'une autre réponse car j'ai reçu une réponse définitive de Matt Cutts à ce sujet:

rel=canonicalfonctionne sur plusieurs domaines, mais il agit essentiellement comme une redirection 301 , de sorte que les pages du site cible iraient directement à votre site dans Google. Tout site utilisant votre contenu serait essentiellement effacé des moteurs de recherche.

Comme Matt le dit, la meilleure façon de penser rel=canonicalest une redirection permanente 301 .

Ainsi, exiger un domaine croisé rel=canonicalcomme un ensemble de conditions d'attribution reviendrait à leur demander de 301 vous rediriger! Aie. : P

Sachant cela, il est clair qu'il rel=canonicalest uniquement destiné à être utilisé sur des sites sur lesquels vous avez personnellement le contrôle - comme lorsque vous déplacez des domaines et que vous avez besoin du contenu d'un domaine pour remplacer l'autre.

En utilisant notre site, vous reconnaissez avoir lu et compris notre politique liée aux cookies et notre politique de confidentialité.
Licensed under cc by-sa 3.0 with attribution required.