Comment savoir quand une URL particulière a été indexée pour la première fois par Google? Je préférerais une solution qui fonctionne même pour les URL des concurrents qui ne m'appartiennent pas.
Comment savoir quand une URL particulière a été indexée pour la première fois par Google? Je préférerais une solution qui fonctionne même pour les URL des concurrents qui ne m'appartiennent pas.
Réponses:
Pour connaître l'âge d'une URL, vous pouvez suivre ce lien en le remplaçant www.example.com
par l'URL que vous souhaitez:
https://www.google.com/search?tbs=cdr%3A1%2Ccd_min%3A1%2F1%2F2000&q=site%3Ahttp%3A%2F%2Fwww.example.com&safe=active&gws_rd=ssl
Par exemple, voici le résultat de Google pour le site Meta de Stack Overflow :
Sinon, la machine Wayback est également une bonne solution mais moins précise d'après mon expérience.
.fr
à .com
.
www
également à ce moment, le résultat de la date Dec 1, 2014
est une date très récente qui ne peut pas être l'âge de l'URL. Suis-je en train de chercher mal? ou manque quelque chose?
Zistoloen a trouvé un moyen pour que Google affiche la date à laquelle il a indexé le contenu de la page pour la première fois. Je l'ajoute également à ma réponse parce que je pense pouvoir l'expliquer plus clairement.
Google affichera alors la date à laquelle il a découvert le contenu qui se trouve sur la page dans le résultat de la recherche.
Si la page est mise à jour avec un nouveau contenu, Google met également à jour cette date. Il s'agit donc plutôt d'une date de "première indexation de ce contenu" plutôt que d'une date de "première indexation de cette URL".
Le cache Google d'une page indique la dernière fois que la page a été indexée. Vous pouvez voir que la page d'accueil de Stack Exchange a été indexée pour la dernière fois aujourd'hui:
Une autre option consiste à utiliser la machine Wayback d'Internet Archive . Cela vous montre à quoi ressemblait une page dans le passé. Vous pouvez savoir quand les pages ont été publiées pour la première fois. Google et Internet Archive explorent et utilisent la page peu de temps après sa première publication.
bing.com
. Désolé si je me trompe?
Il n'y a peut- être aucun moyen de savoir quand une page Web arbitraire a été indexée pour la première fois par Google - je ne connais certainement aucun moyen de le faire. Il est possible que Google ne stocke tout simplement pas ces informations, car il n'y a aucune raison réelle pour laquelle ils devraient le faire. En outre, même s'ils stockent ces informations, ils n'ont vraiment aucune raison particulière de les mettre gratuitement à la disposition de tiers.
(Si c'est votre propre page et que vous avez accès à vos anciens journaux d'accès au serveur Web, c'est facile - recherchez simplement les journaux pour la première visite de Googlebot sur cette page. Mais sinon, il n'y aura aucun moyen de le savoir avec certitude.)
Dans tous les cas, la méthode décrite par Zistoloen et Stephen Ostermiller dans leurs réponses ne révèle généralement pas la date à laquelle une URL particulière a été indexée pour la première fois par Google. Il montre plutôt la date à laquelle Google pense le contenu de l'URL a été publié ou mis à jour pour la dernière fois, et est souvent basé sur les tentatives plus ou moins fiables de Google pour "renifler" les dates à partir du contenu de la page lui-même.
Dans cette vidéo , Matt Cutts de Google aborde brièvement la façon dont ces dates sont choisies. Pour plus de commodité, j'ai transcrit la partie pertinente de la vidéo (environ de 2h09 à 2h22) ci-dessous:
"... souvent vous verrez la date, comme nous l'inférons, ou quand nous l'avons vue pour la première fois, chaque fois que nous avons exploré cette page, ou si nous pouvons la trouver quelque part sur la page, et nous pouvons extraire cette date, vous ' Je le verrai au tout début de l'extrait. "
Pour les pages telles que les articles de blog, les pages wiki ou les questions Stack Exchange, où le site exécutant le logiciel signale automatiquement une date de création / modification précise sur la page elle-même, la date signalée par Google est susceptible de correspondre. Pour d'autres types de pages, cependant, le renifleur de date de Google doit travailler plus dur, et il ne fait pas toujours les choses correctement (ce que "bon" peut signifier, dans ce contexte).
En particulier, ces dates sont fondamentalement inutiles pour déterminer depuis combien de temps une page a été indexée , pour deux raisons:
Si une page a été modifiée récemment et que la date de modification est affichée bien en évidence sur la page, Google peut la prendre comme "la date" de la page, même si la modification était complètement triviale.
Par exemple, cette page wiki plutôt ancienne (que archive.org a indexée pour la première fois en 2003 ) est actuellement horodatée par Google comme étant le 10 novembre 2014 - la date à laquelle elle a été modifiée le plus récemment, comme indiqué au bas de la page. Le changement qui s'est produit à cette date? Il suffit de supprimer un seul lien du bas de la page.
À l'inverse, Google semble être heureux d'accepter les "dates de publication" très anciennes si elles les trouvent sur la page - même celles qui sont antérieures au lancement du World Wide Web .
Par exemple, cette page sur un ancien concours de programmation est datée par Google du 15 septembre 1986 - en fait la date de l'événement décrit sur la page. De même, cette page documentant une grève étudiante en 1970 est datée par Google du 10 mai 1970 (la date de l'un des documents scannés sur la page), et, encore plus absurde, cette page de manuel Linux est datée par Google du 4 novembre , 1989 (un exemple de date aléatoire utilisé sur la page).
Vous pouvez trouver de nombreux autres exemples de ce type en utilisant la recherche de plage de dates personnalisée décrite par Stephen et Zistoloen, mais en définissant l'extrémité supérieure de la plage, disons, le 6 août 1991 .