Depuis la mi-août 2014 environ, plusieurs serveurs Google téléchargent tous les (très) gros fichiers binaires sur mon site Web, environ une fois par semaine. Les adresses IP apparaissent toutes comme appartenant à Google et ressemblent à ceci: google-proxy-66-249-88-199.google.com. Ce sont des demandes GET, et elles affectent considérablement le trafic de mon serveur.
Avant cela, je n'avais pas vu de trafic provenant de ces IP proxy de Google, donc cela semble être quelque chose de relativement nouveau. Je vois toutes sortes de trafic provenant d'autres adresses IP Google, toutes des requêtes googlebot et HEAD uniquement.
Je ne serais pas inquiet à ce sujet, sauf que tous ces fichiers sont téléchargés par Google environ toutes les semaines. La bande passante utilisée commence à devenir excessive.
J'ai supposé que, puisque bon nombre de ces fichiers sont des exécutables Windows, Google les télécharge peut-être pour effectuer des analyses de logiciels malveillants. Même si c'est vrai, cela doit-il vraiment se produire chaque semaine?
Exemple de trafic provenant des IP proxy Google en novembre jusqu'à présent:
google-proxy-64-233-172-95.google.com: 8.09 GB
google-proxy-66-102-6-104.google.com: 7.50 GB
google-proxy-66-249-83-245.google.com: 3.35 GB
google-proxy-66-249-84-131.google.com: 1.54 GB
google-proxy-66-249-83-131.google.com: 4.98 GB
google-proxy-66-249-83-239.google.com: 2.48 GB
google-proxy-66-249-88-203.google.com: 2.94 GB
google-proxy-66-249-88-201.google.com: 2.58 GB
google-proxy-66-249-88-199.google.com: 4.89 GB
Mise à jour # 1: j'ai oublié de mentionner que les fichiers en question sont déjà dans le fichier robots.txt du site. Pour faire en sorte que la configuration robots.txt fonctionne correctement, j'ai également utilisé le testeur robots.txt dans Google Webmaster Tools, qui montre que les fichiers sont définitivement bloqués pour tous les robots Google, à une exception près: Adsbot-Google. Je ne sais pas non plus de quoi il s'agit. ET j'ai cherché sur Google certains des fichiers, et ils n'apparaissent PAS dans les résultats de recherche.
Mise à jour # 2: Exemple: entre 5h12 et 5h18 PST le 17 novembre, environ une demi-douzaine d'adresses IP (toutes google-proxy) ont effectué des GET sur tous les fichiers binaires en question, 27 au total. Le 4 novembre entre 14h09 et 14h15 PST, ces mêmes IP ont essentiellement fait la même chose.
Mise à jour # 3: À ce stade, il semble clair que même si ce sont des adresses IP Google valides, elles font partie du service proxy de Google et non du système d'exploration de sites Web de Google. Parce que ce sont des adresses proxy, il n'y a aucun moyen de déterminer où les demandes GET sont réellement originaires, ou si elles proviennent d'un endroit ou de plusieurs. Compte tenu de la nature sporadique des EEG, il ne semble pas qu'il se passe quoi que ce soit de néfaste; il est probable que quelqu'un décide de télécharger tous les fichiers binaires tout en utilisant le service proxy de Google. Malheureusement, ce service semble être complètement non documenté, ce qui n'aide pas. Du point de vue d'un administrateur de site, les procurations sont plutôt ennuyeuses. Je ne veux pas les bloquer, car ils ont des utilisations légitimes. Mais ils peuvent également être mal utilisés.