J'essaie de refléter un blog, par exemple www.example.com
avec wget
.
J'utilise wget avec les options suivantes (les variables shell sont remplacées correctement):
wget -m -p -H -k -E -np \
-w 1 \
--random-wait \
--restrict-file-names=windows \
-P $folder \
-Q${quota}m \
-t 3 \
--referer=$url \
-U 'Mozilla/5.0 (X11; U; Linux i686; en-US; rv:1.8.1.6) Gecko/20070802 SeaMonkey/1.1.4' \
-e robots=off \
-D $domains
-- $url
Le blog contient des images qui résident sur d'autres domaines.
Même si j'ai spécifié l' -p
option (télécharger les ressources des pages liées), ces images ne sont pas téléchargées, sauf si je spécifie explicitement chaque domaine dans l' -D
option.
Si j'omet cette -D
option, wget suivra chaque lien à l'extérieur www.example.com
et téléchargera tout Internet.
Est-il possible wget
de simplement suivre chaque lien sous www.example.com
et de télécharger les actifs requis de chaque page, qu'ils résident sur le même domaine ou non sans que je doive spécifier explicitement chaque domaine?
-D $domains
ainsi que -H
. Sans -H
cela, il doit rester dans votre domaine mais toujours récupérer les actifs de la page directe, même lorsqu'ils se trouvent sur un domaine différent.
wget -N -E -H -k -K -p
premier et j'ai trouvé un script pour récupérer les images liées manquantes.