Questions marquées «web-crawlers»

Un programme informatique qui accède à des pages Web à des fins diverses (pour récupérer du contenu, pour fournir aux moteurs de recherche des informations sur votre site, etc.)

4
Statut d'Ajax explorable?
J'ai vu que Google avait une belle proposition / norme pour rendre les applications Ajax explorables, via #! (coup de hachage). http://googlewebmastercentral.blogspot.com/2009/10/proposal-for-making-ajax-crawlable.html Mes questions sont: Utilisent-ils actuellement cette "proposition" dans le monde réel déjà? D'autres moteurs de recherche - Bing en particulier, utilisent-ils ou prévoient-ils également de l'utiliser?




2
Les outils Google pour les webmasters m'informent que des robots bloquent l'accès au plan du site
Voici mon robots.txt : User-agent: * Disallow: /wp-admin/ Disallow: /wp-includes/ Sitemap: http://www.example.org/sitemap.xml.gz Mais Google Webmaster Tools me dit que les robots bloquent l'accès au plan du site: Nous avons rencontré une erreur lors de l'accès à votre sitemap. Veuillez vous assurer que votre plan du site respecte nos consignes et …




1
Comment fonctionne «Noindex:» dans robots.txt?
J'ai parcouru cet article dans mes actualités SEO aujourd'hui. Cela semble impliquer que vous pouvez utiliser des Noindex:directives en plus des Disallow:directives standard dans robots.txt . Disallow: /page-one.html Noindex: /page-two.html Il semble que cela empêcherait les moteurs de recherche d'explorer la page un et les empêcherait d'indexer la page deux. …

2
Autoriser uniquement les robots Google et Bing à explorer un site
J'utilise le fichier robots.txt suivant pour un site: l'objectif est de permettre à googlebot et bingbot d'accéder au site à l'exception de la page /bedven/bedrijf/*et d'empêcher tous les autres bots d'explorer le site. User-agent: googlebot Disallow: /bedven/bedrijf/* Crawl-delay: 10 User-agent: google Disallow: /bedven/bedrijf/* Crawl-delay: 10 User-agent: bingbot Disallow: /bedven/bedrijf/* Crawl-delay: …

1
Combinez les agents utilisateurs dans le fichier robots.txt
Les agents utilisateurs peuvent-ils être répertoriés ensemble, suivis de leurs règles communes comme dans un fichier robots.txt ? User-agent: Googlebot User-agent: ia_archiver #Alexa User-agent: BingPreview #Microsoft User-agent: bingbot #Microsoft User-agent: MSNBot #Microsoft User-agent: Slurp #Yahoo User-agent: Ask Jeeves/Teoma #Ask Disallow: /adm30_buds/

2
Signe plus devant les URL dans les agents utilisateurs
J'ai exécuté un petit robot d'indexation Web et j'ai dû décider quel agent utilisateur utiliser pour cela. Les listes d'agents sur chenilles ainsi que Wikipedia suggèrent le format suivant: examplebot/1.2 (+http://www.example.com/bot.html) Cependant, certains robots omettent le signe plus devant l'URL. Et je me demande ce que cela signifie en premier …

1
Comment Google a-t-il réussi à explorer mes 403 pages?
J'avais quelques fichiers privés dans un répertoire de mon dossier scolaire. Vous pouvez voir que les fichiers existaient en accédant à myschool.edu/myusername/myfolder, mais en essayant d'accéder aux fichiers eux-mêmes via myschool.edu/myusername/myfolder/myfile.html renvoie une erreur 403. Et pourtant, Google a réussi à récupérer le contenu de ces fichiers privés et à …


2
Faut-il abandonner le schéma d'exploration AJAX?
Alors maintenant, Google a déconseillé le schéma d'exploration AJAX . Ils disent de ne pas prendre la peine de l'implémenter dans de nouveaux sites Web, car il n'est plus nécessaire car Googlebot n'a plus de problème pour regarder le contenu dynamique. Faut-il immédiatement faire confiance à cette déclaration, ou mieux …

En utilisant notre site, vous reconnaissez avoir lu et compris notre politique liée aux cookies et notre politique de confidentialité.
Licensed under cc by-sa 3.0 with attribution required.