wget décide de ne pas charger en raison de la liste noire


1

J'essaie de faire une copie complète d'un site Web; par exemple.,

http://vfilesarchive.bgmod.com/files/

je suis entrain de courir

wget -r -level=inf -R "index.html*" --debug http://vfilesarchive.bgmod.com/files/

et obtenir, par exemple

Deciding whether to enqueue "http://vfilesarchive.bgmod.com/files/Half-Life%D0%92%D0%86/".
Already on the black list.
Decided NOT to load it.

Qu'est-ce qui se passe? Qu'est-ce que wget dire par "liste noire", pourquoi télécharge-t-il seulement une partie de ce qui existe, et que dois-je faire pour obtenir le site Web entier?

La version de wget est

GNU Wget 1.20 built on mingw32

(sous Windows 10 x64).

P.S. Je pense avoir réussi à résoudre ça avec

wget -m --restrict-file-names=nocontrol --no-iri -R "index.html*" <target url>

même si les noms de fichiers sont légèrement paralysés en raison de caractères spéciaux dans les URL. Y a-t-il une meilleure solution?


Bienvenue sur Super User et félicitations pour la résolution du problème. Le format Q & A du site repose sur le fait que les questions ne sont que des questions et que les solutions figurent dans les réponses. Avec votre clarification, la question a été levée. S'il vous plaît déplacez votre solution à une réponse (vous pouvez répondre à votre propre question). Deux jours après la publication de la question, vous pouvez accepter votre propre réponse en cliquant sur la coche correspondante. Cela indiquera que le problème a été résolu.
fixer1234

@ fix1234: Lorsque vous avez posté le commentaire ci-dessus, je suis en train de modifier la question dans une requête plus large "Pourquoi?" / "Qu'est-ce que cela signifie?".
Scott

Réponses:


0

Je pense avoir réussi à résoudre ça avec

wget -m --restrict-file-names=nocontrol --no-iri -R "index.html*" <target url>

bien que les noms de fichiers soient légèrement endommagés en raison de caractères spéciaux dans les URL.

En utilisant notre site, vous reconnaissez avoir lu et compris notre politique liée aux cookies et notre politique de confidentialité.
Licensed under cc by-sa 3.0 with attribution required.