D'accord. Ce sera l'un de ces cas où je travaillerai à travers le processus afin qu'il devienne plus clair. Ce sera un peu long, mais, espérons-le, pas douloureusement long.
Commençons par le début allons-nous?
En partant de ce que nous savons sur le fonctionnement de Google basé à l'origine sur le document de recherche de Brin et Page en 1997, nous savons quelques choses qui sont encore probablement en jeu aujourd'hui.
Google a une URL dans sa file d'attente d'indexation et de récupération et récupère la page. Le code de la page est stocké dans sa base de données pour diverses formes de traitement. Un des processus serait de trouver de nouveaux liens. Tout lien trouvé par Google sera d'abord localisé dans l'index des liens s'il existe. Si ce n'est pas le cas, le lien sera ajouté à la table des liens et ajouté à la file d'attente d'extraction.
Tout lien dans la table des liens contient au moins ces éléments, l'URL du lien, l'URL source et le texte du lien. Il est probable qu'il existe d'autres éléments de données, mais ceux-ci ne font pas avancer la discussion. Tout lien ajouté à la table des liens a une URL source vérifiée, mais pas nécessairement l'URL cible. En utilisant des bases de données relationnelles à titre d'exemple, les URL source et cible pourraient être un ID URL dans la table URL et une table de jointure joindrait l'URL source de la table de liens et les éléments d'URL cible en utilisant un ID dans la table URL. Confus? Ne le sois pas.
Dans tous les cas où la page cible n'a pas été récupérée, le lien dans la table des liens est dit être un lien pendant. Une fois la page récupérée, le lien dans la table des liens est terminé. Si la page cible n'existe pas, le lien dans la table des liens est un lien rompu. Facile?
Seuls les liens complets peuvent transmettre de la valeur. L'algorithme PageRank nécessite un lien complet pour calculer la valeur. Tous les liens suspendus et rompus arrêtent tout calcul utilisant le lien. Auparavant, la RP était un processus récursif qui calculait les valeurs de lien à l'aide de la table de liens encore et encore jusqu'à ce que la valeur qui peut être ajustée à n'importe quel lien tombe dans une valeur numérique si petite qu'elle ne ferait effectivement aucune différence. Je suis sûr que cela se produit toujours comme un processus d'entretien ménager. Cependant, le PR aujourd'hui est calculé en utilisant une autre méthode similaire aux sauts dans un réseau qui mesure la distance d'une page à l'autre avec une importance relative. Il est basé sur le modèle de réseau de confiance, c'est ainsi que le modèle PageRank d'origine a été conçu pour émuler. Un lien est un vote de confiance d'une entité à une autre. Bien que cela devienne plus compliqué que cela, vous obtenez l'image. Il fait effectivement la même chose que le processus récursif en utilisant un calcul plus en temps réel mais probablement moins précis mais suffisamment précis pour être fiable. Cela nécessite des liens complets car les valeurs de confiance (à l'aide du modèle de réseau de confiance) ne peuvent pas être transmises si la confiance n'est pas établie. N'oubliez pas qu'un lien est un vote de confiance ou un lien dans le modèle de réseau de confiance. Le PageRank est représenté comme une valeur de confiance dans un réseau de confiance.
Maintenant que vous comprenez les liens et leur importance, passons à autre chose.
Pour un moteur de recherche, il n'est pas logique de supprimer une URL. Si une URL n'existe pas dans la table d'URL, vous ne pouvez rien savoir sur l'URL et vous perdriez. Les URL ne sont généralement pas supprimées, sauf si cela a du sens, par exemple, si l'URL n'existe plus. Cependant, lorsqu'une page est définie sur NOINDEX, le moteur de recherche a été explicitement chargé de NE PAS indexer la page. Puisqu'une page Web dans l'index se compose de deux choses, une URL et le code source HTML, NOINDEX supprime efficacement la page à ce stade. Les liens vers une page NOINDEX sont au moins pendants.
Maintenant que vous savez à quoi ressemble une page indexée, allons plus loin.
Il existe de nombreuses façons dont un moteur de recherche pénalisera une page Web ou un site. L'une est la radiation. C'est la sanction la plus sévère de toutes et elle prend beaucoup de temps à récupérer. Vous pouvez prouver cette catégorie de pénalité, car la page ne sera pas et ne peut pas être trouvée. De plus, Googles Search Console vous indiquera, d'une manière approximative, que les pages sont supprimées. Parmi les pénalités restantes, les pénalités sont appliquées dans les filtres SERP.
Lorsqu'une requête de recherche est effectuée, il existe en fait plusieurs requêtes sur l'index à la fois qui sont ensuite mélangées dans un jeu de résultats basé sur une partie de l'algorithme. L'algorithme restant, que nous appelons souvent une seule entité, est une série d'algorithmes SERP relativement simples. Les algorithmes principaux réorganiseront l'ensemble de résultats en fonction de mesures plus en temps réel telles que les tendances. Parmi les algorithmes, ceux qui suppriment des entrées de l'ensemble de résultats ou dégradent sérieusement le placement d'une entrée dans l'ensemble de résultats sont appelés filtres. Celui qui est appliqué est le filtre qui gère le DMCA comme en témoigne...we have removed 1 result(s) from this page...
Alors maintenant que vous savez comment les pénalités sont appliquées, les liens, les filtres PR et DMCA sont-ils connectés?
Avec cela, nous savons qu'un filtre a été appliqué, cependant, cela n'a rien à voir avec l'index de lien qui est la façon dont le PageRank est calculé. Il est aussi éloigné du processus de liaison / RP qu'il peut l'être. Les liens et les relations publiques se trouvent au début du processus d'indexation tandis que la suppression de la page pénalisée DMCA est à la fin du processus de requête. En fait, ce sont deux moteurs complètement séparés. Ainsi, même si une page peut être supprimée en raison d'une réclamation DMCA, elle n'est pas réellement supprimée de l'index et, par conséquent, les liens vers et depuis la page sont toujours calculés.
Clair comme de la boue? J'espère que j'ai bien expliqué cela. Veuillez me faire savoir si je peux clarifier quelque chose pour vous.
[Mise à jour]
Une exception qui ne s'applique pas au scénario du PO.
@StephenOstermiller soulève un bon point qui ne remet pas en cause ce qui précède, cependant, je voudrais l'ajouter pour être complet.
Comme vous le savez bien, la notation d'un site ou d'une page dans la recherche nécessite de nombreux facteurs. Bien que ce ne soit pas aussi technique ou mystique que vous pouvez l'imaginer, il reste encore beaucoup de facteurs à peser. J'ai oublié l'effet des scores de confiance principalement parce qu'il ne s'appliquait pas dans le cas du PO. Je l'ajoute donc ici.
De toute évidence, il existe des sites qui ne servent à rien, comme les sites de spam. Dans cette classification des sites, on trouve des sites qui sont des abuseurs habituels du contenu du droit d'auteur. C'était un énorme problème il y a de nombreuses années où les grattoirs de contenu construisaient des sites à partir de votre travail acharné. Pendant longtemps, rien n'a été fait. Les sites dont le contenu est original perdraient aux sites de grattage de manière assez constante. Je devrais le savoir. J'ai eu deux sites PR 8 qui ont perdu presque tout son trafic en raison de sites de grattage sans aucun recours.
Mais les choses ont changé. Et cela ne fait que quatre ans que les changements importants ont commencé.
Pour ces classifications spéciales de sites, le score de confiance des sites peut être considérablement réduit. C'est bien connu. Il faut des années pour reconstruire les scores de confiance et pour certains sites, cela peut ne jamais arriver. Pourquoi, par exemple, pensez-vous que les monétiseurs de domaine sont si disposés à détruire complètement un site avec des centaines de milliers de personnes attendant dans les coulisses le même abus? C'est parce que la réalité est qu'un domaine peut ruiner sa valeur au-delà de la rédemption.
De nombreux facteurs entrent en jeu pour établir la confiance. Je n'entrerai pas là-dedans. Cependant, sachez que la confiance est un élément majeur de la construction d'un classement pour n'importe quel site.
Cela dit, pour tout site qui est un violateur grave du DMCA avec un bilan assez étendu, verrait un sérieux coup dans son score de confiance. Ce n'est pas le scénario que l'OP décrit. Cependant, c'est le scénario que je suppose ici.
Les liens et l'établissement du PageRank ont plus d'un composant. L'un est le PageRank (autorité) de la page elle-même. Pour les pages hautement autorisées, il existe un plafond d'autorité. Une page PR 8 ne partagera pas une valeur de 8 parmi les liens de cette page. Cela fait partie de l'algorithme PageRank original destiné à mettre une courbe plus naturelle dans PR. Sinon, il serait presque impossible pour une nouvelle page de concurrencer une page avec une autorité élevée, même après une longue période de temps. La valeur du lien lui-même est notée à l'aide de plusieurs facteurs, notamment la valeur sémantique du texte du lien, l'URL du lien, l'emplacement du lien (importance), la valeur sémantique du bloc de contenu qui contient le lien s'il s'applique, etc. Tous les liens sont notés de 0 à 0,9. Le calcul de l'autorité et du score du lien est la valeur transmise par n'importe quel lien.
Bel et bien. Alors, comment cela affecte-t-il un site qui est un violateur important du DMCA?
La valeur de tout lien entrant ne serait pas nécessairement affectée par le score de confiance du site cible, car la valeur des liens provient du site source. Cependant, n'importe quel lien sortant pourrait l'être. L'autorité de tout site qui est un abuseur important de DMCA serait affectée par le score de confiance. Après tout, l'autorité vient de la confiance. Ainsi, de cette manière, la valeur d'un lien entrant ne serait pas transmise via des liens sortants sans être dégradée en fonction du score de confiance.
Cela change quelque peu la réponse.
Bien qu'il ne s'applique pas au scénario de l'OP, il existe un scénario dans lequel une valeur de lien entrant n'est pas complètement transmise via le site avec une violation DMCA. Cependant, il s'agit d'un cas difficile et donc le seuil avant que cela se produise est significatif.