Un programme informatique qui accède à des pages Web à des fins diverses (pour récupérer du contenu, pour fournir aux moteurs de recherche des informations sur votre site, etc.)
J'ai vu que Google avait une belle proposition / norme pour rendre les applications Ajax explorables, via #! (coup de hachage). http://googlewebmastercentral.blogspot.com/2009/10/proposal-for-making-ajax-crawlable.html Mes questions sont: Utilisent-ils actuellement cette "proposition" dans le monde réel déjà? D'autres moteurs de recherche - Bing en particulier, utilisent-ils ou prévoient-ils également de l'utiliser?
J'ai un site multilingue et multidomaine. Il fonctionne à travers une installation CMS unique (Drupal), j'ai donc un seul répertoire racine. Donc, si j'ai un fichier robots.txt statique, je ne peux y afficher que les fichiers d'un seul domaine, pour autant que je sache. Puis-je mettre une ligne dans .htaccess …
J'ai remarqué que Google Webmaster Tools signale un grand nombre de ressources bloquées sur mon site Web. À l'heure actuelle, toutes les «ressources bloquées» sont les .css, .js et les images (.jpg, .png) que je sers depuis Cloudfront CDN. J'ai passé beaucoup de temps à tester et à essayer de …
Après avoir écrit un certain nombre de bots et vu les quantités massives de bots aléatoires qui se trouvent sur un site, je me demande en tant que webmaster, quels bots valent vraiment la peine d'être loués sur un site? Ma première pensée est que le fait d'autoriser les bots …
Voici mon robots.txt : User-agent: * Disallow: /wp-admin/ Disallow: /wp-includes/ Sitemap: http://www.example.org/sitemap.xml.gz Mais Google Webmaster Tools me dit que les robots bloquent l'accès au plan du site: Nous avons rencontré une erreur lors de l'accès à votre sitemap. Veuillez vous assurer que votre plan du site respecte nos consignes et …
J'ai un site qui génère environ 7 000 à 10 000 pages vues par jour en ce moment. Commençant vers 1 h du matin le 7/1/12, j'ai remarqué que le CTR augmentait considérablement. Ces clics seraient crédités puis dé-crédités peu après. Il s'agissait donc manifestement de clics frauduleux. Le lendemain, …
Mon site Web compte les vues des visiteurs sur certaines pages. J'ai remarqué que Google et d'autres robots "cliquaient" sur mon site comme un fou et certaines des pages avaient un nombre de vues irréaliste (par rapport à celles produites par les humains). Je demande les meilleures pratiques pour exclure …
Nous avons une page de recherche de magasin sur le site de notre client. L'utilisateur final entre son code postal et un rayon de recherche et nous affichons les résultats sur une carte Google. Récemment, nous avions commencé à remarquer que le site atteignait la limite de recherche de carte …
J'ai parcouru cet article dans mes actualités SEO aujourd'hui. Cela semble impliquer que vous pouvez utiliser des Noindex:directives en plus des Disallow:directives standard dans robots.txt . Disallow: /page-one.html Noindex: /page-two.html Il semble que cela empêcherait les moteurs de recherche d'explorer la page un et les empêcherait d'indexer la page deux. …
J'utilise le fichier robots.txt suivant pour un site: l'objectif est de permettre à googlebot et bingbot d'accéder au site à l'exception de la page /bedven/bedrijf/*et d'empêcher tous les autres bots d'explorer le site. User-agent: googlebot Disallow: /bedven/bedrijf/* Crawl-delay: 10 User-agent: google Disallow: /bedven/bedrijf/* Crawl-delay: 10 User-agent: bingbot Disallow: /bedven/bedrijf/* Crawl-delay: …
J'ai exécuté un petit robot d'indexation Web et j'ai dû décider quel agent utilisateur utiliser pour cela. Les listes d'agents sur chenilles ainsi que Wikipedia suggèrent le format suivant: examplebot/1.2 (+http://www.example.com/bot.html) Cependant, certains robots omettent le signe plus devant l'URL. Et je me demande ce que cela signifie en premier …
J'avais quelques fichiers privés dans un répertoire de mon dossier scolaire. Vous pouvez voir que les fichiers existaient en accédant à myschool.edu/myusername/myfolder, mais en essayant d'accéder aux fichiers eux-mêmes via myschool.edu/myusername/myfolder/myfile.html renvoie une erreur 403. Et pourtant, Google a réussi à récupérer le contenu de ces fichiers privés et à …
J'ai un site Web que je ne veux surtout pas être indexé par les moteurs de recherche, mais je veux le conserver pour l'éternité sur archive.org. Donc, je robots.txtcommence par ceci: User-agent: * Disallow: / Aujourd'hui, selon archive.org, je dois ajouter ce qui suit dans mon robots.txtpour autoriser leurs bots: …
Alors maintenant, Google a déconseillé le schéma d'exploration AJAX . Ils disent de ne pas prendre la peine de l'implémenter dans de nouveaux sites Web, car il n'est plus nécessaire car Googlebot n'a plus de problème pour regarder le contenu dynamique. Faut-il immédiatement faire confiance à cette déclaration, ou mieux …
We use cookies and other tracking technologies to improve your browsing experience on our website,
to show you personalized content and targeted ads, to analyze our website traffic,
and to understand where our visitors are coming from.
By continuing, you consent to our use of cookies and other tracking technologies and
affirm you're at least 16 years old or have consent from a parent or guardian.