Je doute fort que la date de publication d'un article ou d'un article soit basée sur l' <lastmod>
entrée dans un sitemap XML (comme d'autres l'ont suggéré) ou l'en-tête HTTP Last-Modified d'ailleurs. Un plan Sitemap XML est uniquement consultatif et ne fait pas autorité. La dernière date de modification d'un document n'est probablement pas la même que la date de publication (originale) d'un article. Et, comme je l'ai mentionné dans mon commentaire en haut de la page, la dernière date de modification d'un document est probablement plus importante pour la mise en cache et peut - être pour déterminer les taux d'exploration. L'en-tête HTTP Last-Modified des pages générées dynamiquement est souvent très proche de la date / heure réelle (comme c'est le cas pour les blogs WordPress).
Un flux RSS / Atom, d'autre part, contient cette pépite d'informations spécifique. Et en effet, sur les sites Wordpress qui n'incluent pas la date de publication dans le contenu, la date de publication apparaît toujours dans les résultats de recherche de Google. Et pour autant que je sache, cela correspond à la date dans le flux RSS.
EDIT # 1: Cependant, un flux RSS ne contient pas nécessairement toutes les pages. Dans la plupart des cas, il ne doit contenir que les pages mises à jour les plus récentes ou les plus récentes. Mais il n'y a aucune raison pour que Google oublie ce qu'il a déjà lu, et la fourniture du contenu de cette page n'a pas changé, pas plus que la dernière date modifiée.
S'il n'y a pas de flux RSS, je pense que Google est assez intelligent pour analyser le contenu de la page. Surtout si les dates sont balisées «sémantiquement» à l'aide de microformats . Il est parfaitement possible que Google considère ce qui suit comme la date de publication faisant autorité pour un article dans lequel il est contenu:
<abbr class="published" title="2010-08-27T15:45:00-0700">
Friday, August 27th, 2010
</abbr>
Google lit certainement les microformats - hCard, hReview, etc.
Juste pour ajouter, je ne pense pas que Google indiquerait une date de publication à moins qu'il ne soit en mesure de trouver quelque chose d'autorité qui suggérerait cela. Cela ne va pas déduire une «date de publication» sur les données spéculatives, car une «date de publication» incorrecte ne sert à personne et Google obtiendrait beaucoup de bâton pour cela!
Et juste pour mémoire (si @Tom suggère le contraire :) Je pense que les articles / articles devraient avoir la date de publication visiblement affichée. Beaucoup ne le font pas, et cela peut être frustrant pour le lecteur, en particulier lors de recherches sur des problèmes technologiques et vous constatez qu'après avoir lu la moitié de l'article, il est obsolète!
EDIT # 2: J'ai depuis ressenti une gêne similaire que @mmdanziger détaille dans sa réponse. Sur l'un de mes anciens sites, j'ai le texte du formulaire "Site Dernière mise à jour le 17 juin 2012" (non marqué de manière spéciale) en haut de chaque page (écrit sur la page avec JavaScript !!). Cette même date a été choisie par Google et apparaît maintenant à côté de plusieurs pages (mais pas toutes) qui apparaissent dans le SERPS - ce n'est certainement pas la date de publication de la page. Il semblerait que Google soit simplement en train de supprimer la page pour une chaîne du formulaire "dernière mise à jour ( chaîne de données )" (après avoir traité le JavaScript !!). Ce site particulier n'a pas de flux RSS. Le site a un fichier Sitemap.xml mais les dates sont différentes.
J'ai également remarqué un comportement similaire sur d'autres sites.