Pourquoi Google télécharge-t-il des fichiers binaires depuis mon site Web et utilise-t-il la bande passante?

Depuis la mi-août 2014 environ, plusieurs serveurs Google téléchargent tous les (très) gros fichiers binaires sur mon site Web, environ une fois par semaine. Les adresses IP apparaissent toutes comme appartenant à Google et ressemblent à ceci: google-proxy-66-249-88-199.google.com. Ce sont des demandes GET, et elles affectent considérablement le trafic de mon serveur.

Avant cela, je n'avais pas vu de trafic provenant de ces IP proxy de Google, donc cela semble être quelque chose de relativement nouveau. Je vois toutes sortes de trafic provenant d'autres adresses IP Google, toutes des requêtes googlebot et HEAD uniquement.

Je ne serais pas inquiet à ce sujet, sauf que tous ces fichiers sont téléchargés par Google environ toutes les semaines. La bande passante utilisée commence à devenir excessive.

J'ai supposé que, puisque bon nombre de ces fichiers sont des exécutables Windows, Google les télécharge peut-être pour effectuer des analyses de logiciels malveillants. Même si c'est vrai, cela doit-il vraiment se produire chaque semaine?

Exemple de trafic provenant des IP proxy Google en novembre jusqu'à présent:

google-proxy-64-233-172-95.google.com: 8.09 GB
google-proxy-66-102-6-104.google.com: 7.50 GB
google-proxy-66-249-83-245.google.com: 3.35 GB
google-proxy-66-249-84-131.google.com: 1.54 GB
google-proxy-66-249-83-131.google.com: 4.98 GB
google-proxy-66-249-83-239.google.com: 2.48 GB
google-proxy-66-249-88-203.google.com: 2.94 GB
google-proxy-66-249-88-201.google.com: 2.58 GB
google-proxy-66-249-88-199.google.com: 4.89 GB

Mise à jour # 1: j'ai oublié de mentionner que les fichiers en question sont déjà dans le fichier robots.txt du site. Pour faire en sorte que la configuration robots.txt fonctionne correctement, j'ai également utilisé le testeur robots.txt dans Google Webmaster Tools, qui montre que les fichiers sont définitivement bloqués pour tous les robots Google, à une exception près: Adsbot-Google. Je ne sais pas non plus de quoi il s'agit. ET j'ai cherché sur Google certains des fichiers, et ils n'apparaissent PAS dans les résultats de recherche.

Mise à jour # 2: Exemple: entre 5h12 et 5h18 PST le 17 novembre, environ une demi-douzaine d'adresses IP (toutes google-proxy) ont effectué des GET sur tous les fichiers binaires en question, 27 au total. Le 4 novembre entre 14h09 et 14h15 PST, ces mêmes IP ont essentiellement fait la même chose.

Mise à jour # 3: À ce stade, il semble clair que même si ce sont des adresses IP Google valides, elles font partie du service proxy de Google et non du système d'exploration de sites Web de Google. Parce que ce sont des adresses proxy, il n'y a aucun moyen de déterminer où les demandes GET sont réellement originaires, ou si elles proviennent d'un endroit ou de plusieurs. Compte tenu de la nature sporadique des EEG, il ne semble pas qu'il se passe quoi que ce soit de néfaste; il est probable que quelqu'un décide de télécharger tous les fichiers binaires tout en utilisant le service proxy de Google. Malheureusement, ce service semble être complètement non documenté, ce qui n'aide pas. Du point de vue d'un administrateur de site, les procurations sont plutôt ennuyeuses. Je ne veux pas les bloquer, car ils ont des utilisations légitimes. Mais ils peuvent également être mal utilisés.

google proxy bandwidth

— boot13
source

Bonne question. J'ai voté pour! Vous voudrez certainement les bloquer en utilisant robots.txt. Pourquoi Google télécharge des exécutables me dépasse. Votre théorie semble bonne, mais d'une certaine manière, à cause de la fréquence, je ne suis pas sûr. Cela semble plutôt étrange. Il semble que ce soient des adresses IP Googlebot valides, mais je n'ai pas google-proxy-66-102-6-104.google.com dans ma liste.

— closetnoc

J'ai oublié de mentionner que les fichiers en question sont déjà dans le fichier robots.txt du site. Voir la mise à jour # 1 ci-dessus.

— boot13

Tu m'as troublé. J'ai un entrepreneur attendu dans une minute maintenant, je vais donc devoir y penser. Google a fait des choses drôles avec leurs noms de domaine et leurs allocations d'adresses IP et il y a eu un certain chevauchement avec divers services Google, y compris l'hébergement et d'autres où des robots peuvent apparaître sur l'espace d'adressage IP de Google, cependant, je ne les ai pas vus utiliser l'adresse IP de Googlebot espace. Je souhaite que Google alloue un espace libre pour les différents processus de recherche avec peu ou pas de chevauchement afin que les systèmes de sécurité puissent correctement approuver ces adresses IP.

— closetnoc

J'ai fait des recherches pour cette question et j'ai trouvé des minces intéressantes, telles que:

1. Est-ce un faux robot? -> /programming/15840440/google-proxy-is-a-fake-crawler-for-example-google-proxy-66-249-81-131-google-c

Conclusion de l'utilisateur:

Ces "robots" ne sont pas des robots, mais font partie de l'aperçu du site Web en direct utilisé dans le moteur de recherche Google.

J'ai essayé cela, pour afficher un de mes sites Web dans l'aperçu et oui, il est là, j'ai reçu un message IP bloqué.

Si vous voulez que les utilisateurs puissent voir un aperçu de votre site Web, vous devez accepter ces «robots».

Comme d'autres l'ont dit: "le domaine racine de cette URL est google.com et ne peut pas être facilement usurpé".

Conclusion: vous pouvez faire confiance à ces robots ou robots et il est utilisé pour afficher un aperçu dans la recherche Google.

Nous savons que l'aperçu en direct ne télécharge pas vos fichiers, alors passons à la question 2.

2. Fait-il partie des services Google? -> Ce proxy Google est-il un faux robot: google-proxy-66-249-81-131.google.com?

Conclusion:

Je pense que certaines personnes utilisent des services Google (comme Google translate, Google mobile, etc.) pour accéder à des sites Web (bloqués) (dans les écoles, etc.) mais aussi pour des attaques DOS et des activités similaires.

Ma supposition à ce sujet est la même que ci-dessus. Quelqu'un essaie d'utiliser un service Google pour accéder à vos fichiers, comme un traducteur.

Si, comme vous le dites, les fichiers sont déjà bloqués par le fichier robots.txt, il ne peut s'agir que d'une demande manuelle.

EDIT: Pour répondre de manière approfondie au commentaire OP:

Les robots d'exploration peuvent-ils ignorer le fichier robots.txt? Oui. Voici une liste, je ne pense pas que Google le fasse, ce qui signifie qu'il peut s'agir d'autres robots utilisant des proxys Google.

Cela peut-il être un mauvais robot? Oui, et pour cela je recommande:

.htaccess interdiction:

 RewriteCond %{REMOTE_HOST} ^209.133.111..* [OR]
 RewriteCond %{HTTP_USER_AGENT} Spider [OR]
 RewriteCond %{HTTP_USER_AGENT} Slurp
 RewriteRule ^.*$ X.html [L]

Ce code peut interdire les IP ou les agents utilisateurs.

Ou utilisez un piège à araignée, présenté ici

Je continue de penser qu'il s'agit d'une demande manuelle.

— nunorbatista
source

J'ai également vu ces réponses, mais elles ne semblaient pas répondre à mon problème spécifique. Vous avez peut-être raison de dire que Google Proxy est en quelque sorte utilisé à mauvais escient, auquel cas je vais très probablement le bloquer complètement, ce qui est un peu boiteux. Ma compréhension de robots.txt est que le logiciel de robot peut choisir de l'ignorer. Les robots amicaux sont censés l'honorer, et la plupart le font, mais les procurations sont (je suppose) différentes.

— boot13

@ boot13 Soyez prudent cependant. Ce sont des adresses IP Googlebot valides. Donc, si vous le bloquez, ne le bloquez que pour ces fichiers. En supposant que vous utilisez Apache, vous devriez pouvoir le faire avec .htaccess. Mais cela pourrait entraîner d'autres problèmes, alors assurez-vous de prêter attention aux outils Google pour les webmasters pour les messages.

— closetnoc

@ boot13 J'ai mis à jour ma réponse. Pouvez-vous vérifier si les accès se font au même jour / heure ou sont aléatoires?

— nunorbatista

@nunorbatista: ils semblent aléatoires. J'ai mis à jour ma question avec quelques fois.

— boot13

@nunorbatista: voir la mise à jour # 3 ci-dessus. Ce n'est pas Googlebot ou tout autre robot, c'est le service proxy de Google. Ce n'est pas lié à l'aperçu du site en direct de Google. Il semble qu'une ou plusieurs personnes viennent de télécharger les fichiers binaires via Google Proxy, peut-être pour contourner un blocage local ou une restriction. Il est peu probable que la suggestion de piège à araignée aide, car le trafic n'est apparemment pas un bot. Je voudrais empêcher les adresses IP du proxy Google d'accéder au dossier contenant les fichiers binaires; J'essaierai d'utiliser le code htaccess, mais bien sûr, le téléchargeur pourrait toujours basculer vers un autre proxy, donc cela peut être inutile.

— boot13