Comment savoir quel âge a une page?


15

Je pensais que Google était plus ou moins précis pour déterminer qui avait publié un texte en premier et qui l'avait copié. Cependant, lorsque j'utilise "l'outil de recherche: intervalle personnalisé", les résultats sont assez étranges. J'ai trouvé des pages datant de 2002 pour un site Web que je n'avais que depuis quelques années.

Donc, Google n'est pas précis pour savoir qui a copié et qui a écrit l'original. Quel est?

entrez la description de l'image ici

Si a stackexchange.comété créé en 2009, comment est-ce possible? hermeneutics.seest plus ancien que Stack Overflow!


Est-ce que quelqu'un possédait le nom de domaine avant vous? Quelles sont les pages que vous comparez dans Google?
closetnoc

J'ai mis à jour la question avec les données SE. Les horodatages ne peuvent pas être précis.
Renan

2
Sensationnel. Je ne suis pas sûr. Je comprends normalement la mécanique de cela, mais ce que fait Google reste un mystère. Il y a très peu d'informations sur le net sur la façon dont Google détermine les dates. Nous avions une question concernant la façon dont Google détermine les dates de modification il y a quelques temps. J'ai fait quelques recherches et il n'y a presque rien. Pourtant, je vais regarder à nouveau. Mais cela peut prendre quelques jours. Gardez à l'esprit que le logiciel CMS et probablement le code SE ne renvoient pas les dates de création et de modification comme le ferait Apache pour les pages HTML. Et cela peut être la réponse.
closetnoc

Il n'est pas nécessaire que ce soit Google, mais je veux vraiment savoir si mes utilisateurs sont en train de plagier ou d'être plagiés. = /
Renan

Jusqu'à présent, il semble que Google ne comprenne pas le format de date dans le code HTML, mais ce n'est pas concluant. Le code source de la première page d'exemple ne fournit pas d'indices de date clairs à Google. Google (au moins) regarde ou une date dans cet ordre: URL, titre, corps (contenu), balises META, date de dernière modification de la réponse HTTP. Une demande HEAD renvoie la date de création et la dernière date de modification. De plus, un GET avec if-modified-puisque renvoie la ressource avec un 200 Ok ou renvoie un 304 Non modifié. Le code SE peut ne pas les renvoyer et seules les URL, le titre, le contenu et les balises META sont disponibles.
closetnoc

Réponses:


12

J'ai recherché la réponse à cette question de cette façon: en utilisant Google puisque c'est l'exemple que j'ai, comment Google obtient les dates de création et les dates modifiées, et les formats de date que Google reconnaît. Veuillez comprendre que ces informations n'existent pas sur seulement quelques pages et j'ai dû dénicher les données de très nombreuses sources dont certaines ne semblent pas s'appliquer directement et les rassembler. Dans certains cas, les informations proviennent de plusieurs sources et ne sont pas toujours citées.

Google recherche les dates des pages dans cet ordre; URL, balise de titre, corps (contenu), méta-balises, en-tête de réponse HTTP au moins en ce qui concerne le système de recherche Google. Dans d'autres paragraphes d'autres documents, aucun ordre n'a été documenté, mais la liste a été discutée et semblait confirmer la liste. Si vous y réfléchissez, cela reflète l'ordre que ferait un moteur de recherche; un - découvrez votre page (lien), et deux - lisez votre page de haut en bas (titre, corps et méta-tag) à l'exception du méta-tag (petit détail) et de l'en-tête de réponse HTTP. Voici la liste en ce qui concerne l'appareil:https://developers.google.com/search-appliance/documentation/68/admin_crawl/Preparing#docdaterule

Remarque: La date de création est la date à laquelle la page a été demandée pour la première fois par Google. En l'absence de date de création, la date de création est utilisée.

1] Tout moteur de recherche peut demander une ressource via une requête HTTP GET et le serveur Web renvoie la dernière date modifiée dans l'en-tête de réponse avec la ressource dans le paquet de données.

2] Tout moteur de recherche peut demander des informations d'en-tête d'une ressource via une requête HTTP HEAD et le serveur Web renvoie la date modifiée dans l'en-tête de réponse sans la ressource dans le paquet de données.

3] Tout moteur de recherche peut demander si une ressource a été modifiée depuis une certaine date en demandant une ressource avec un HTTP GET avec if-modified-since défini sur une date. Si la ressource a été modifiée depuis la date définie, le serveur Web répond avec une réponse 200 Ok et renvoie la ressource ou si la ressource n'a pas été modifiée depuis la date définie, le serveur Web répond avec un 304 Non modifié sans renvoyer la ressource .

Google fait de nombreuses demandes en utilisant la méthode # 3 pour économiser sur la bande passante. Vous les verrez dans les fichiers journaux de votre serveur Web.

Remarque: Il est possible qu'un système de gestion de contenu (CMS) ou un autre logiciel ne puisse pas fournir la date de manière appropriée dans un en-tête de réponse.

Ces exemples de date proviennent également de la documentation de Google Appliance mais existent également dans d'autres endroits concernant la recherche générale. J'ai pris ces détails dans la documentation de l'appareil simplement parce qu'ils pouvaient être coupés et collés sous forme de liste alors qu'à d'autres endroits, ce n'était pas aussi net.

4] Google recherche une date dans l'URL. Il recherche les formats suivants; YYYMMDDHH - YYYY - YYYYMM.

5] Google recherche une date dans la balise de titre. Il recherche les formats suivants; YYYMMDDHH - YYYY - YYYYMM bien que je soupçonne que d'autres formats peuvent être reconnus. Voir ci-dessous.

6] Google recherche une date dans la balise body (contenu). Il recherche les formats suivants; YYYMMDDHH - YYYYMMDD - YYYYMM - YYYY - DDMMYYYY - YYMMMDD - MMDDYYYY - YYMMDD - DDMMYY - MMDDYY bien que je soupçonne que d'autres formats peuvent être reconnus. Voir ci-dessous.

Remarque: Il est connu que Google recherche spécifiquement une date juste sous la première H1balise. En effet, les blogs mettent souvent des dates à cet endroit.

7] Google recherche une méta-balise comme celle-ci. <meta http-equiv="last-modified" content="YYYY-MM-DD@hh:mm:ss TMZ" />

Google reconnaîtrait également les formats de date suivants.

YYYY-MD - YYYY.MD - YYYY / M / D - MD-YYYY - MDYYYY - M / D / YYYY - YY-MM-DD - YY.MM.DD - YY / MM / DD - WK, D MON, YR - WK, MON D, YR - D MON, YR - MON YYYY - MON D, YR - MON YY - YYYY-DM - ​​YYYY.DM - YYYY / D / M - DM-YYYY - DMYYYY - D / M / YYYY - DD-MM-YY - MM-DD-YY - DD / MM / YY - MM / DD / YY - YYYYMMDDHH - YYYYMMDD - YYYYMM - YYYY - DDMMYYYY - MMDDYYYY - YYMMDD - DDMMYY - MMDDYY

Les recherches que j'ai trouvées n'ont pas répondu à la question du temps.

Dans le cas des exemples cités, les pages ne fournissent pas d'indices de date, sauf dans une balise span qui peut être ignorée. Il est possible que le logiciel / serveur Web SE ne puisse pas renvoyer les dates de création et de modification dans un en-tête de réponse.

Pourquoi et comment Google a dérivé ces dates est une bonne question qui peut ne jamais être résolue. Je continuerai cependant à chercher.


3
Avez-vous une référence pour "Google recherche les dates de page dans cet ordre; URL, balise de titre, corps (contenu), méta-balises, en-tête de réponse HTTP."? Avez-vous un nombre ou une statistique pour cette recherche?. Si vous pouviez publier des références pour ce que vous avez publié ici, ce serait beaucoup mieux pour nous tous.
PatomaS

J'apprécie votre question. Une grande partie de ce que j'ai trouvé était en morceaux. La liste a été trouvée à plusieurs endroits, mais l'ordre a été trouvé dans la documentation de Google Search Appliance et semble être sauvegardé dans des paragraphes à d'autres endroits. J'ai littéralement regardé plusieurs dizaines de documents qui ont mis pas mal de temps à trouver. J'ai essayé de faire attention à dire que je devais rassembler les données d'une variété de sources car il ne semblait pas y avoir d'informations directes à ce sujet. Je vais modifier la déclaration pour la rendre plus claire.
closetnoc

Je peux également confirmer que la chaîne de format de date suivante, contenue à un certain article.post > div.post-content > h2 > pniveau, a récemment été récupérée par Google et utilisée pour afficher la date: "Dernière mise à jour: 7 octobre 2018"
Matt

-2

Si vous voulez voir quel âge a un domaine, recherchez sur Google la machine de retour . Ce site est ce que vous recherchez: http://archive.org/web/ .

Si vous souhaitez détecter le plagiat, ce lien vous aidera: http://copyscape.com/signup.php?pro=0&o=f

Recherchez également sur Google le "vérificateur de plagiat".

J'espère que j'ai aidé.


3
Avec égards, vous devez relire la question.
closetnoc

La question est "Comment savoir quel âge a une page?" Veuillez suivre mon lien et vous verrez que la réponse est bonne. Merci d'avoir lu ceci.
Pascut

3
Vous ne lisez pas la question. Vous lisez le titre. Le chemin du retour ne répond pas à la question.
closetnoc

Tu as raison, j'ai édité ma question ..
Pascut

1
La machine Wayback garde une trace de la page dans le domaine. Il n'est pas utile de comparer les dates entre des pages spécifiques. Je cherche des moyens précis de dire lequel a été publié en premier.
Renan
En utilisant notre site, vous reconnaissez avoir lu et compris notre politique liée aux cookies et notre politique de confidentialité.
Licensed under cc by-sa 3.0 with attribution required.