Comment savoir quand une URL a été indexée pour la première fois par Google?


16

Comment savoir quand une URL particulière a été indexée pour la première fois par Google? Je préférerais une solution qui fonctionne même pour les URL des concurrents qui ne m'appartiennent pas.


1
Il est fort possible que la réponse soit "non". Google peut même ne pas stocker ces informations (car il n'y a aucune raison particulière pour laquelle elles devraient le faire), ou, même si elles le font, elles ne peuvent pas les divulguer à des tiers.
Ilmari Karonen

1
Comme d'autres l'ont mentionné, vous ne pouvez pas obtenir ces informations. Si vous avez accès aux journaux du serveur, vous pouvez voir quand il a été analysé pour la première fois, mais même cela ne signifie pas qu'il a été indexé à ce moment-là.
John Mueller

Réponses:


15

Pour connaître l'âge d'une URL, vous pouvez suivre ce lien en le remplaçant www.example.compar l'URL que vous souhaitez:

https://www.google.com/search?tbs=cdr%3A1%2Ccd_min%3A1%2F1%2F2000&q=site%3Ahttp%3A%2F%2Fwww.example.com&safe=active&gws_rd=ssl

Par exemple, voici le résultat de Google pour le site Meta de Stack Overflow : entrez la description de l'image ici

Sinon, la machine Wayback est également une bonne solution mais moins précise d'après mon expérience.


3
Cette fonctionnalité de Google est-elle également disponible en anglais? Vous avez lié à la version française.
Stephen Ostermiller

1
@StephenOstermiller Modifiez simplement le tld de .frà .com.
MDMoore313

2
@Zistoloen +1 pour votre réponse mais j'ai un doute dans votre requête. Comme vous l'avez dit, j'ai recherché www.stackexchange.com en utilisant votre exemple de requête, mais il ne montre aucun résultat. J'ai cherché en supprimant wwwégalement à ce moment, le résultat de la date Dec 1, 2014est une date très récente qui ne peut pas être l'âge de l'URL. Suis-je en train de chercher mal? ou manque quelque chose?
Sathiya Kumar

2
J'ai "volé" cette réponse et je l'ai ajoutée à ma réponse avec une meilleure explication. C'est une super astuce, Zistoloen.
Stephen Ostermiller

6
@Stephen & Zistoloen: Ce n'est généralement pas la date à laquelle la page a été indexée pour la première fois par Google. Sur la base de certains tests, la date affichée via cette méthode semble être tirée du contenu de la page (si Google pense voir quelque chose qui ressemble à une date "publiée le" ou "modifiée le" le) ou, à défaut la date se trouve dans le contenu, en fonction de la date à laquelle Google a pour la dernière fois observé une modification (substantielle?) de la page. Bien sûr, si la page n'a jamais été modifiée après sa première publication, il se peut que cela soit identique à sa date de publication, mais il n'y a aucune garantie de cela.
Ilmari Karonen

8

Zistoloen a trouvé un moyen pour que Google affiche la date à laquelle il a indexé le contenu de la page pour la première fois. Je l'ajoute également à ma réponse parce que je pense pouvoir l'expliquer plus clairement.

  1. Recherchez sur Google quelque chose qui fait apparaître la page souhaitée
  2. Utilisez "Outils de recherche"
  3. Sélectionnez "Plage personnalisée ..." dans le menu déroulant "À tout moment"
  4. Mettez dans une grande plage de dates comme 1/1/1900 à 1/1/2020

Google affichera alors la date à laquelle il a découvert le contenu qui se trouve sur la page dans le résultat de la recherche.

d'abord indexé

Si la page est mise à jour avec un nouveau contenu, Google met également à jour cette date. Il s'agit donc plutôt d'une date de "première indexation de ce contenu" plutôt que d'une date de "première indexation de cette URL".


Le cache Google d'une page indique la dernière fois que la page a été indexée. Vous pouvez voir que la page d'accueil de Stack Exchange a été indexée pour la dernière fois aujourd'hui:

entrez la description de l'image ici


Une autre option consiste à utiliser la machine Wayback d'Internet Archive . Cela vous montre à quoi ressemblait une page dans le passé. Vous pouvez savoir quand les pages ont été publiées pour la première fois. Google et Internet Archive explorent et utilisent la page peu de temps après sa première publication.


1
Votre première option donnera-t-elle le résultat exact pour toutes les URL? J'ai recherché bing.com comme vous l'avez expliqué, mais je n'ai pas obtenu la première date indexée de bing.com. Désolé si je me trompe?
Sathiya Kumar

1
Il semble exact tant que le contenu de la page n'a pas changé. Google peut réinitialiser cette date si la page est révisée. Ma page d'accueil est répertoriée comme 1er février 2002, même si une page interne est répertoriée comme 1er février 2001. La page d'accueil a été repensée à cette époque alors que la page interne n'a pas considérablement changé depuis 2001.
Stephen Ostermiller

@SathiyaKumar Bing.com me donne la date du 19 mars 2014 en utilisant cette méthode. Notez que tout ce qui n'est pas indexé par google (via robots.txt ou autre) ne sera évidemment pas affiché de cette façon.
Thebluefish

4

Il n'y a peut- être aucun moyen de savoir quand une page Web arbitraire a été indexée pour la première fois par Google - je ne connais certainement aucun moyen de le faire. Il est possible que Google ne stocke tout simplement pas ces informations, car il n'y a aucune raison réelle pour laquelle ils devraient le faire. En outre, même s'ils stockent ces informations, ils n'ont vraiment aucune raison particulière de les mettre gratuitement à la disposition de tiers.

(Si c'est votre propre page et que vous avez accès à vos anciens journaux d'accès au serveur Web, c'est facile - recherchez simplement les journaux pour la première visite de Googlebot sur cette page. Mais sinon, il n'y aura aucun moyen de le savoir avec certitude.)


Dans tous les cas, la méthode décrite par Zistoloen et Stephen Ostermiller dans leurs réponses ne révèle généralement pas la date à laquelle une URL particulière a été indexée pour la première fois par Google. Il montre plutôt la date à laquelle Google pense le contenu de l'URL a été publié ou mis à jour pour la dernière fois, et est souvent basé sur les tentatives plus ou moins fiables de Google pour "renifler" les dates à partir du contenu de la page lui-même.

Dans cette vidéo , Matt Cutts de Google aborde brièvement la façon dont ces dates sont choisies. Pour plus de commodité, j'ai transcrit la partie pertinente de la vidéo (environ de 2h09 à 2h22) ci-dessous:

"... souvent vous verrez la date, comme nous l'inférons, ou quand nous l'avons vue pour la première fois, chaque fois que nous avons exploré cette page, ou si nous pouvons la trouver quelque part sur la page, et nous pouvons extraire cette date, vous ' Je le verrai au tout début de l'extrait. "

Pour les pages telles que les articles de blog, les pages wiki ou les questions Stack Exchange, où le site exécutant le logiciel signale automatiquement une date de création / modification précise sur la page elle-même, la date signalée par Google est susceptible de correspondre. Pour d'autres types de pages, cependant, le renifleur de date de Google doit travailler plus dur, et il ne fait pas toujours les choses correctement (ce que "bon" peut signifier, dans ce contexte).

En particulier, ces dates sont fondamentalement inutiles pour déterminer depuis combien de temps une page a été indexée , pour deux raisons:

  • Si une page a été modifiée récemment et que la date de modification est affichée bien en évidence sur la page, Google peut la prendre comme "la date" de la page, même si la modification était complètement triviale.

    Par exemple, cette page wiki plutôt ancienne (que archive.org a indexée pour la première fois en 2003 ) est actuellement horodatée par Google comme étant le 10 novembre 2014 - la date à laquelle elle a été modifiée le plus récemment, comme indiqué au bas de la page. Le changement qui s'est produit à cette date? Il suffit de supprimer un seul lien du bas de la page.

  • À l'inverse, Google semble être heureux d'accepter les "dates de publication" très anciennes si elles les trouvent sur la page - même celles qui sont antérieures au lancement du World Wide Web .

    Par exemple, cette page sur un ancien concours de programmation est datée par Google du 15 septembre 1986 - en fait la date de l'événement décrit sur la page. De même, cette page documentant une grève étudiante en 1970 est datée par Google du 10 mai 1970 (la date de l'un des documents scannés sur la page), et, encore plus absurde, cette page de manuel Linux est datée par Google du 4 novembre , 1989 (un exemple de date aléatoire utilisé sur la page).

    Vous pouvez trouver de nombreux autres exemples de ce type en utilisant la recherche de plage de dates personnalisée décrite par Stephen et Zistoloen, mais en définissant l'extrémité supérieure de la plage, disons, le 6 août 1991 .


Eh bien, dans votre réponse, vous vous êtes principalement opposé aux réponses de Stephen et Zistoloen, mais je ne trouve pas de réponse appropriée à la question d'OP "Comment puis-je savoir quand une URL a été indexée par Google pour la première fois?" dans votre réponse !!
Sathiya Kumar

Il peut ne pas y avoir de réponse, autre que "vous ne pouvez pas" ou "personne ne sait comment". Mais vous avez raison, permettez-moi de modifier cela dans ma réponse.
Ilmari Karonen du

@llmariKaronen +1 pour l'édition et l'ajout de la réponse à la question réelle d'OP.
Sathiya Kumar
En utilisant notre site, vous reconnaissez avoir lu et compris notre politique liée aux cookies et notre politique de confidentialité.
Licensed under cc by-sa 3.0 with attribution required.