Comment Google a-t-il réussi à explorer mes 403 pages?

J'avais quelques fichiers privés dans un répertoire de mon dossier scolaire. Vous pouvez voir que les fichiers existaient en accédant à myschool.edu/myusername/myfolder, mais en essayant d'accéder aux fichiers eux-mêmes via myschool.edu/myusername/myfolder/myfile.html renvoie une erreur 403.

Et pourtant, Google a réussi à récupérer le contenu de ces fichiers privés et à les stocker dans son cache! Comment est-ce possible? [J'ai depuis supprimé ces fichiers, je suis donc curieux de savoir comment Google a réussi à le faire.]

web-crawlers security googlebot

— grautur
source

Cela appartient aux Webmasters

— RobertPitt

La raison la plus probable est que les pages ne renverront pas d'en-tête 403.

Vous pouvez vérifier cela à l'aide de la barre d'outils des développeurs Web dans Firefox ou Chrome. L'outil se trouve sous "Informations" -> "Afficher les en-têtes de réponse".

De plus, la façon dont je crée mes pages d'erreur est la suivante:

Je crée une page d'erreur factice. Disons 403.php .
Je crée une page d'erreur réelle. Par exemple error403.php .
Sur la page d'erreur factice, j'ai mis le code suivant: <?php header("Location: /error403.php",TRUE,301); ?>
Dans mon .htaccess, j'ai mis ce qui suit:

Options -Indexes

ErrorDocument 403 /403.php

Cela ajoute toutes les redirections de manière appropriée et me garantit que je reçois du jus de mes pages d'erreur.

Cela peut en fait être étendu de manière extrêmement cool si votre site Web dispose d'un moteur de recherche qui utilise les demandes GET.

— Vergil Penkov
source