J'essaie de refléter un blog, par exemple www.example.comavec wget.
J'utilise wget avec les options suivantes (les variables shell sont remplacées correctement):
wget -m -p -H -k -E -np \
-w 1 \
--random-wait \
--restrict-file-names=windows \
-P $folder \
-Q${quota}m \
-t 3 \
--referer=$url \
-U 'Mozilla/5.0 (X11; U; Linux i686; en-US; rv:1.8.1.6) Gecko/20070802 SeaMonkey/1.1.4' \
-e robots=off \
-D $domains
-- $url
Le blog contient des images qui résident sur d'autres domaines.
Même si j'ai spécifié l' -poption (télécharger les ressources des pages liées), ces images ne sont pas téléchargées, sauf si je spécifie explicitement chaque domaine dans l' -Doption.
Si j'omet cette -Doption, wget suivra chaque lien à l'extérieur www.example.comet téléchargera tout Internet.
Est-il possible wgetde simplement suivre chaque lien sous www.example.comet de télécharger les actifs requis de chaque page, qu'ils résident sur le même domaine ou non sans que je doive spécifier explicitement chaque domaine?
-D $domainsainsi que -H. Sans -Hcela, il doit rester dans votre domaine mais toujours récupérer les actifs de la page directe, même lorsqu'ils se trouvent sur un domaine différent.
wget -N -E -H -k -K -ppremier et j'ai trouvé un script pour récupérer les images liées manquantes.