Webmasters web-crawlers

4

J'ai vu que Google avait une belle proposition / norme pour rendre les applications Ajax explorables, via #! (coup de hachage). http://googlewebmastercentral.blogspot.com/2009/10/proposal-for-making-ajax-crawlable.html Mes questions sont: Utilisent-ils actuellement cette "proposition" dans le monde réel déjà? D'autres moteurs de recherche - Bing en particulier, utilisent-ils ou prévoient-ils également de l'utiliser?

12 seo google ajax web-crawlers

4

Les fichiers robots.txt et sitemap.xml peuvent-ils être dynamiques via une redirection .htaccess?

J'ai un site multilingue et multidomaine. Il fonctionne à travers une installation CMS unique (Drupal), j'ai donc un seul répertoire racine. Donc, si j'ai un fichier robots.txt statique, je ne peux y afficher que les fichiers d'un seul domaine, pour autant que je sache. Puis-je mettre une ligne dans .htaccess …

12 htaccess redirects sitemap web-crawlers

4

Google n'analyse pas les fichiers CDN

J'ai remarqué que Google Webmaster Tools signale un grand nombre de ressources bloquées sur mon site Web. À l'heure actuelle, toutes les «ressources bloquées» sont les .css, .js et les images (.jpg, .png) que je sers depuis Cloudfront CDN. J'ai passé beaucoup de temps à tester et à essayer de …

11 google-search-console web-crawlers googlebot cdn amazon-cloudfront

2

Quels robots valent vraiment la peine d'être loués sur un site?

Après avoir écrit un certain nombre de bots et vu les quantités massives de bots aléatoires qui se trouvent sur un site, je me demande en tant que webmaster, quels bots valent vraiment la peine d'être loués sur un site? Ma première pensée est que le fait d'autoriser les bots …

11 seo web-crawlers robots.txt googlebot bingbot

2

Les outils Google pour les webmasters m'informent que des robots bloquent l'accès au plan du site

Voici mon robots.txt : User-agent: * Disallow: /wp-admin/ Disallow: /wp-includes/ Sitemap: http://www.example.org/sitemap.xml.gz Mais Google Webmaster Tools me dit que les robots bloquent l'accès au plan du site: Nous avons rencontré une erreur lors de l'accès à votre sitemap. Veuillez vous assurer que votre plan du site respecte nos consignes et …

11 google-search-console robots.txt web-crawlers

4

Le bot de clic Adsense est un bombardement de clics sur mon site

J'ai un site qui génère environ 7 000 à 10 000 pages vues par jour en ce moment. Commençant vers 1 h du matin le 7/1/12, j'ai remarqué que le CTR augmentait considérablement. Ces clics seraient crédités puis dé-crédités peu après. Il s'agissait donc manifestement de clics frauduleux. Le lendemain, …

11 google-adsense advertising web-crawlers botattack

6

Quelle est la meilleure façon d'exclure les bots du nombre de vues?

Mon site Web compte les vues des visiteurs sur certaines pages. J'ai remarqué que Google et d'autres robots "cliquaient" sur mon site comme un fou et certaines des pages avaient un nombre de vues irréaliste (par rapport à celles produites par les humains). Je demande les meilleures pratiques pour exclure …

11 php mysql web-crawlers best-practices

1

Googlebot soumet des milliers de demandes à notre localisateur de cartes et utilise le quota d'API

Nous avons une page de recherche de magasin sur le site de notre client. L'utilisateur final entre son code postal et un rayon de recherche et nous affichons les résultats sur une carte Google. Récemment, nous avions commencé à remarquer que le site atteignait la limite de recherche de carte …

10 web-crawlers google-maps

1

Comment fonctionne «Noindex:» dans robots.txt?

J'ai parcouru cet article dans mes actualités SEO aujourd'hui. Cela semble impliquer que vous pouvez utiliser des Noindex:directives en plus des Disallow:directives standard dans robots.txt . Disallow: /page-one.html Noindex: /page-two.html Il semble que cela empêcherait les moteurs de recherche d'explorer la page un et les empêcherait d'indexer la page deux. …

10 web-crawlers robots.txt googlebot noindex

2

Autoriser uniquement les robots Google et Bing à explorer un site

J'utilise le fichier robots.txt suivant pour un site: l'objectif est de permettre à googlebot et bingbot d'accéder au site à l'exception de la page /bedven/bedrijf/*et d'empêcher tous les autres bots d'explorer le site. User-agent: googlebot Disallow: /bedven/bedrijf/* Crawl-delay: 10 User-agent: google Disallow: /bedven/bedrijf/* Crawl-delay: 10 User-agent: bingbot Disallow: /bedven/bedrijf/* Crawl-delay: …

10 web-crawlers robots.txt

1

Combinez les agents utilisateurs dans le fichier robots.txt

Les agents utilisateurs peuvent-ils être répertoriés ensemble, suivis de leurs règles communes comme dans un fichier robots.txt ? User-agent: Googlebot User-agent: ia_archiver #Alexa User-agent: BingPreview #Microsoft User-agent: bingbot #Microsoft User-agent: MSNBot #Microsoft User-agent: Slurp #Yahoo User-agent: Ask Jeeves/Teoma #Ask Disallow: /adm30_buds/

10 web-crawlers robots.txt user-agent

2

Signe plus devant les URL dans les agents utilisateurs

J'ai exécuté un petit robot d'indexation Web et j'ai dû décider quel agent utilisateur utiliser pour cela. Les listes d'agents sur chenilles ainsi que Wikipedia suggèrent le format suivant: examplebot/1.2 (+http://www.example.com/bot.html) Cependant, certains robots omettent le signe plus devant l'URL. Et je me demande ce que cela signifie en premier …

10 web-crawlers http user-agent

1

Comment Google a-t-il réussi à explorer mes 403 pages?

J'avais quelques fichiers privés dans un répertoire de mon dossier scolaire. Vous pouvez voir que les fichiers existaient en accédant à myschool.edu/myusername/myfolder, mais en essayant d'accéder aux fichiers eux-mêmes via myschool.edu/myusername/myfolder/myfile.html renvoie une erreur 403. Et pourtant, Google a réussi à récupérer le contenu de ces fichiers privés et à …

10 web-crawlers security googlebot

6

Comment (correctement) autoriser le bot archive.org? Les choses ont-elles changé, si oui, quand?

J'ai un site Web que je ne veux surtout pas être indexé par les moteurs de recherche, mais je veux le conserver pour l'éternité sur archive.org. Donc, je robots.txtcommence par ceci: User-agent: * Disallow: / Aujourd'hui, selon archive.org, je dois ajouter ce qui suit dans mon robots.txtpour autoriser leurs bots: …

10 web-crawlers robots.txt internet-archive

2

Faut-il abandonner le schéma d'exploration AJAX?

Alors maintenant, Google a déconseillé le schéma d'exploration AJAX . Ils disent de ne pas prendre la peine de l'implémenter dans de nouveaux sites Web, car il n'est plus nécessaire car Googlebot n'a plus de problème pour regarder le contenu dynamique. Faut-il immédiatement faire confiance à cette déclaration, ou mieux …

9 seo web-crawlers googlebot ajax

Questions marquées «web-crawlers»