Comment Googlebot trouve-t-il les URL qui ne sont visibles que par les utilisateurs authentifiés?


12

Voici l'un de mes clients, effectuant une action après s'être connecté à son compte. Le jeton unique est simplement un identifiant utilisateur chiffré + un horodatage.

94.254.xxx.xxx - - [02 / Jul / 2011: 22: 25: 46 +0200] "GET / some-action / unique-token-123abc HTTP / 1.1" 200 410 "-" "Mozilla / 5.0 (compatible; MSIE 9.0; Windows NT 6.1; Trident / 5.0) "

Maintenant, Googlebot a découvert ce lien unique et a essayé d'accéder à la même URL exacte une semaine plus tard.

66.249.71.179 - - [10 / Jul / 2011: 09: 56: 01 +0200] "GET / some-action / unique-token-123abc HTTP / 1.1" 302 - "-" "Mozilla / 5.0 (compatible; Googlebot / 2.1; + http: //www.google.com/bot.html) "

(le code d'état est 302 car le jeton a expiré)


Permettez-moi de souligner qu'il s'agit d'une URL unique qui était visible exactement une fois, pendant seulement 2 secondes, avant que l'utilisateur clique dessus et continue de visiter cette page. Il n'a pas été envoyé par e-mail ni publié dans un lieu public.

Que se passe-t-il ici, comment est-il possible que Google ait trouvé cette URL unique?

Réponses:


6

C'est difficile à dire avec certitude, mais voici des scénarios probables:

  • L'utilisateur dispose d'une barre d'outils ou d'une extension de navigateur installée qui signale les URL qu'il visite à Google.

  • Quelqu'un a lié cette URL et Google l'a trouvée en explorant la page avec ce lien.


Si vous parlez de la barre d'outils Google, vous ne renvoyez des URL à Google que si vous activez la fonction "PageRank", mais nous n'avons jamais utilisé ces données pour découvrir de nouvelles URL. Si à propos d'une autre barre d'outils que nous avons publiée, faites-le moi savoir.
methode

5

Je viens de réaliser que l'utilisateur doit avoir trouvé un lien sortant sur cette page authentifiée, puis j'ai divulgué l'URL privée comme Refererlors d'un clic vers un autre site Web. C'est la seule explication possible et aurait dû être évidente dès le départ.

Une fois divulguée, l'URL privée peut avoir été exposée à Google de plusieurs manières, par exemple, le site cible peut avoir publié ses journaux d'accès publiquement. Remarque: aucun des liens sortants n'utilisait Google Analytics, ce qui n'indique donc pas que Googlebot utilise des URL de référence depuis Analytics.

Leçon réapprise: ne mettez jamais de données sensibles dans des URL à moins que vous n'utilisiez https, auquel cas le navigateur serait resté Referervide.


1
Vous avez raison: mettre des données sensibles dans des URL peut être dangereux. Chaque fois que vous le pouvez, vous devez transmettre des ID utilisateur uniques entre les pages à l'aide de requêtes POST (qui n'envoient pas de variables dans le cadre de l'URL, comme les requêtes GET), ou avec des variables de cookie / session.
Nick
En utilisant notre site, vous reconnaissez avoir lu et compris notre politique liée aux cookies et notre politique de confidentialité.
Licensed under cc by-sa 3.0 with attribution required.