J'ai recherché la réponse à cette question de cette façon: en utilisant Google puisque c'est l'exemple que j'ai, comment Google obtient les dates de création et les dates modifiées, et les formats de date que Google reconnaît. Veuillez comprendre que ces informations n'existent pas sur seulement quelques pages et j'ai dû dénicher les données de très nombreuses sources dont certaines ne semblent pas s'appliquer directement et les rassembler. Dans certains cas, les informations proviennent de plusieurs sources et ne sont pas toujours citées.
Google recherche les dates des pages dans cet ordre; URL, balise de titre, corps (contenu), méta-balises, en-tête de réponse HTTP au moins en ce qui concerne le système de recherche Google. Dans d'autres paragraphes d'autres documents, aucun ordre n'a été documenté, mais la liste a été discutée et semblait confirmer la liste. Si vous y réfléchissez, cela reflète l'ordre que ferait un moteur de recherche; un - découvrez votre page (lien), et deux - lisez votre page de haut en bas (titre, corps et méta-tag) à l'exception du méta-tag (petit détail) et de l'en-tête de réponse HTTP. Voici la liste en ce qui concerne l'appareil:https://developers.google.com/search-appliance/documentation/68/admin_crawl/Preparing#docdaterule
Remarque: La date de création est la date à laquelle la page a été demandée pour la première fois par Google. En l'absence de date de création, la date de création est utilisée.
1] Tout moteur de recherche peut demander une ressource via une requête HTTP GET et le serveur Web renvoie la dernière date modifiée dans l'en-tête de réponse avec la ressource dans le paquet de données.
2] Tout moteur de recherche peut demander des informations d'en-tête d'une ressource via une requête HTTP HEAD et le serveur Web renvoie la date modifiée dans l'en-tête de réponse sans la ressource dans le paquet de données.
3] Tout moteur de recherche peut demander si une ressource a été modifiée depuis une certaine date en demandant une ressource avec un HTTP GET avec if-modified-since défini sur une date. Si la ressource a été modifiée depuis la date définie, le serveur Web répond avec une réponse 200 Ok et renvoie la ressource ou si la ressource n'a pas été modifiée depuis la date définie, le serveur Web répond avec un 304 Non modifié sans renvoyer la ressource .
Google fait de nombreuses demandes en utilisant la méthode # 3 pour économiser sur la bande passante. Vous les verrez dans les fichiers journaux de votre serveur Web.
Remarque: Il est possible qu'un système de gestion de contenu (CMS) ou un autre logiciel ne puisse pas fournir la date de manière appropriée dans un en-tête de réponse.
Ces exemples de date proviennent également de la documentation de Google Appliance mais existent également dans d'autres endroits concernant la recherche générale. J'ai pris ces détails dans la documentation de l'appareil simplement parce qu'ils pouvaient être coupés et collés sous forme de liste alors qu'à d'autres endroits, ce n'était pas aussi net.
4] Google recherche une date dans l'URL. Il recherche les formats suivants; YYYMMDDHH - YYYY - YYYYMM.
5] Google recherche une date dans la balise de titre. Il recherche les formats suivants; YYYMMDDHH - YYYY - YYYYMM bien que je soupçonne que d'autres formats peuvent être reconnus. Voir ci-dessous.
6] Google recherche une date dans la balise body (contenu). Il recherche les formats suivants; YYYMMDDHH - YYYYMMDD - YYYYMM - YYYY - DDMMYYYY - YYMMMDD - MMDDYYYY - YYMMDD - DDMMYY - MMDDYY bien que je soupçonne que d'autres formats peuvent être reconnus. Voir ci-dessous.
Remarque: Il est connu que Google recherche spécifiquement une date juste sous la première H1
balise. En effet, les blogs mettent souvent des dates à cet endroit.
7] Google recherche une méta-balise comme celle-ci. <meta http-equiv="last-modified" content="YYYY-MM-DD@hh:mm:ss TMZ" />
Google reconnaîtrait également les formats de date suivants.
YYYY-MD - YYYY.MD - YYYY / M / D - MD-YYYY - MDYYYY - M / D / YYYY - YY-MM-DD - YY.MM.DD - YY / MM / DD - WK, D MON, YR - WK, MON D, YR - D MON, YR - MON YYYY - MON D, YR - MON YY - YYYY-DM - YYYY.DM - YYYY / D / M - DM-YYYY - DMYYYY - D / M / YYYY - DD-MM-YY - MM-DD-YY - DD / MM / YY - MM / DD / YY - YYYYMMDDHH - YYYYMMDD - YYYYMM - YYYY - DDMMYYYY - MMDDYYYY - YYMMDD - DDMMYY - MMDDYY
Les recherches que j'ai trouvées n'ont pas répondu à la question du temps.
Dans le cas des exemples cités, les pages ne fournissent pas d'indices de date, sauf dans une balise span qui peut être ignorée. Il est possible que le logiciel / serveur Web SE ne puisse pas renvoyer les dates de création et de modification dans un en-tête de réponse.
Pourquoi et comment Google a dérivé ces dates est une bonne question qui peut ne jamais être résolue. Je continuerai cependant à chercher.