Comment puis-je demander à Google d'indexer mes documents PDF?


14

Nous rencontrons des problèmes pour que Google indexe les fichiers PDF sur notre site. Il existe environ 50 PDF et leur taille varie de 20 Ko à un peu moins de deux mégaoctets. Ils ne sont pas protégés, peuvent être lus de manière anonyme et à l'intérieur de PDF Reader, vous pouvez rechercher le document.

Ils sont répertoriés dans SiteMap.xml. Je peux même consulter les journaux IIS et voir Googlebot lire les fichiers PDF, mais, à l'exception de cinq, ils ne sont jamais inclus dans les résultats de la recherche.

Si je fais un filetye: pdf, seuls cinq PDF sont apparus. Si je recherche du texte dont je sais qu'il se trouve dans un PDF, les PDF ne s'affichent jamais (sauf les cinq indexés).

Quelqu'un sait-il pourquoi les documents PDF de plus de 45+ ne sont pas inclus dans l'index, même s'ils sont dans le plan du site et que Googlebot les lit?


Spécifiez-vous le type de contenu pour Google?
Chris Ballance

Réponses:


4

tous les fichiers PDF sont-ils situés au même endroit? Une fois, j'ai eu le problème qu'un de mes emplacements PDF se trouvait dans un dossier qui était exclu par le robots.txt. Soumettez votre plan du site directement sur le site de l'outil google-webmaster et vous obtiendrez peut-être des informations précieuses sur la blancheur des fichiers PDF qui n'apparaissent pas. dans mon cas, google m'a dit "hé, ces 54 documents pdf sont sur votre plan du site mais à cause des restrictions de robots.txt nous ne pouvons pas les indexer". donc c'était assez utile. mais attention à ce que dit le commentateur, cela peut prendre un certain temps jusqu'à ce que cette information apparaisse.

Outils Google pour les webmasters: https://www.google.com/webmasters/tools


J'ajouterai simplement que Google Webmaster Tools ne donne pas toutes les informations en temps réel. C'est toujours une ressource vitale.
Liam

Non, les fichiers PDF sont situés à plusieurs endroits différents sur le site. J'ai vérifié et aucun d'entre eux n'est bloqué par robots.txt. J'ai utilisé les outils pour les webmasters et envoyé des plans de site, et continuerai de le faire. Merci pour vos commentaires. Jim

1

Il peut y avoir un certain décalage entre la lecture initiale de votre contenu par Google et son apparition dans l'index. Nous avons récemment relancé un site, en soumettant des plans de site à Google au lancement, et il a fallu environ 3 semaines pour que les nouvelles pages commencent à apparaître dans les résultats de recherche.

Depuis combien de temps avez-vous envoyé ces PDF via votre plan du site?

(sauf pour les cinq indexés)

Il semble que vos fichiers PDF soient indexés, mais cela prend du temps. En supposant qu'il n'y a pas de différence dans la façon dont les fichiers PDF non indexés ont été générés, je soupçonne que la mise à jour de l'index prend juste un certain temps.

Sur une légère tangente, un outil utile que je recommanderais de vous inscrire est Google Webmaster - il vous montre le taux d'exploration, les problèmes avec votre site, les sitemaps et l'indexation dans un jour ou deux après que le robot Googlebot a frappé votre site. Cela pourrait vous faire gagner un peu de temps en parcourant vos journaux IIS.


Cela fait environ quatre semaines que nous avons soumis notre plan du site pour la première fois. Je viens de remarquer que la nuit dernière, ils en ont répertorié quatre autres; alors peut-être que je dois juste attendre :)

Lorsque vous avez relancé le site, s'il a fallu 3 semaines pour que les nouvelles pages commencent à apparaître dans les résultats de recherche, cela ne signifie-t-il pas que pendant 3 semaines, la recherche a renvoyé les résultats aux pages qui n'existaient plus sur votre site? cela n'a-t-il pas entraîné beaucoup de conditions de «page non trouvée»?

Dans notre situation, la relance a coïncidé avec le lancement d'une nouvelle section, les anciens liens fonctionnaient toujours - les 3 semaines étaient le moment pour que la nouvelle section commence à apparaître. Le temps d'attente aléatoire peut être un peu frustrant bien!
ConroyP

0

Vos fichiers PDF sont-ils scannés par OCR pour que le texte soit sélectionnable et consultable? Ou les fichiers PDF sont-ils numérisés sans OCR, auquel cas le texte sera stocké sous forme d'une grande image? Si le PDF est toutes les images, je ne pense pas que Google puisse l'indexer (encore). Ou Google a-t-il déjà trouvé vos pages?


En utilisant notre site, vous reconnaissez avoir lu et compris notre politique liée aux cookies et notre politique de confidentialité.
Licensed under cc by-sa 3.0 with attribution required.