Googlebot soumet des milliers de demandes à notre localisateur de cartes et utilise le quota d'API

Nous avons une page de recherche de magasin sur le site de notre client. L'utilisateur final entre son code postal et un rayon de recherche et nous affichons les résultats sur une carte Google.

Récemment, nous avions commencé à remarquer que le site atteignait la limite de recherche de carte gratuite (environ 25 000 par 24 heures) sans augmentation notable du trafic global. J'ai activé une journalisation supplémentaire pour essayer de trouver le problème.

Il s'avère que Googlebot pousse à travers des milliers de recherches sur cette carte. Ceci est un petit échantillon:

2017-07-09 23: 56: 22,719 [7] INFO ShopLanding - [Sujet 41] Google Maps: le G23 recherché a reçu OK de 66.249.66.221
09/07/2017 23: 56: 35,469 [7] INFO ShopLanding - [Thread 10] Google Maps: CA6 recherché a reçu OK de 66.249.66.221
2017-07-09 23: 57: 24,563 [7] INFO ShopLanding - [Sujet 48] Google Maps: le BN14 recherché a reçu OK de 66.249.66.223
2017-07-09 23: 58: 00,970 [7] INFO ShopLanding - [Thread 42] Google Maps: CB4 recherché a reçu OK de 66.249.66.221
2017-07-09 23: 58: 13,064 [7] INFO ShopLanding - [Sujet 54] Google Maps: la recherche DY9 a reçu OK de 66.249.66.221
2017-07-09 23: 59: 18,722 [7] INFO ShopLanding - [Thread 59] Google Maps: TS3 recherché a reçu OK de 66.249.66.223
2017-07-09 23: 59: 53,223 [7] INFO ShopLanding - [Sujet 49] Google Maps: la recherche S45 a reçu OK de 66.249.66.221

Existe-t-il un moyen d'empêcher Google de traiter autant de demandes? Cela représente une part importante de l'allocation gratuite. Les recherches légitimes semblent être inférieures à 200 par jour.

ÉDITER

Le site est construit sur C # ASP.NET. La recherche en magasin utilise POST, l'URL ne change pas lors de la soumission. Je peux publier un échantillon de journaux IIS demain matin pour confirmer ce comportement.

web-crawlers google-maps

— Burgi
source

Les éléments recherchés par Googlebot ont-ils un sens? "G23" et "CA6" ne signifient rien pour moi. Googlebot ne soumet généralement pas de données aléatoires aux formulaires. Il analyse généralement uniquement les options de liste déroulante, les données préremplies ou les liens de requête. Ces valeurs sont-elles quelque part sur le site sous forme de liste? De plus, à quoi ressemblent vos URL pour ces demandes?

— Stephen Ostermiller

@StephenOstermiller, ce sont des codes postaux britanniques partiels, en particulier l'identifiant du district. Il doit s'agir de POSTdemandes pour AJAX, je vérifierai cependant les journaux IIS.

— Burgi

À part: Qu'est - ce que c'est que la «recherche cartographique gratuite»?

— MrWhite

@SamWeaver, l'IP se résout en bot Google et l'entrée de journal IIS correspondante a Googlebot UserAgent. Certes, ces deux éléments peuvent être usurpés.

— Burgi

Votre localisateur de magasin utilise-t-il une chaîne de requête (demande GET)? Quelle est la structure approximative de l'URL de votre page de recherche de magasin, change-t-elle (chaîne de requête) avec la recherche d'utilisateurs? Si vous pouvez expliquer le côté fonctionnel / technique plus en détail, vous pouvez y répondre de manière plus efficace.

— TopQnA

Pour empêcher googlebot de rechercher via googlemaps, placez un fichier nommé robots.txtà la racine de votre domaine. par exemple https://www.wikipedia.org/robots.txt

Exemple de robots.txt:

User-agent: Googlebot
Disallow: /search-store/

Où / search-store / est la page qui envoie la demande à google maps.

S'il se trouve que c'est autre chose que Googlebot, vous pouvez essayer de désactiver toutes les analyses vers cette page avec:

User-agent: *
Disallow: /search-store/

Notez que cela n'arrêtera pas les scripts qui ignorent le fichier robots.txt.

— satibel
source

Notez que vous ne voulez pas que Google et d'autres moteurs de recherche parcourent ces pages, de toute façon!

— Ari Davidow

Je ne sais pas si le blocage de l'ensemble du magasin de recherche est la bonne option, nous pourrions avoir besoin de comprendre la chaîne de requête, etc. Signification, laissez Google lire mais n'envoyez pas trop de demandes. Le blocage de l'ensemble du magasin de recherche devrait être la dernière option.

— TopQnA

La recherche limitant le débit pourrait être une autre option, disons qu'après 25 recherches, vous devez vous refroidir pendant une heure entre chaque recherche. Cela arrêterait les bots et les gens infâmes, mais pas les utilisateurs réguliers.

— satibel

Si la page est juste pour rechercher l'emplacement d'un magasin, je doute qu'il serait utile de l'avoir indexé en premier lieu. Cela dépendrait de la structure du site. De plus, robots.txt est plus facile / plus rapide (donc moins cher) à implémenter comme solution rapide que de prendre quelques heures pour limiter la vitesse. @TopQnA

— satibel

Eh bien, l'emplacement du magasin est très important pour l'utilisateur et la plupart des gens recherchent un magasin en référence à l'emplacement dans Google et si le localisateur de magasin peut générer une carte avec des informations utiles avec une URL unique pour chaque magasin, alors ce serait beaucoup plus utile pour l'utilisateur. Et c'est pourquoi le blocage devrait être la dernière option.

— TopQnA