Comment puis-je faire en sorte que wget télécharge uniquement les pages, pas les images css, etc.?


10

Je veux télécharger un site Web entier en utilisant wget mais je ne veux pas que wget télécharge des images, des vidéos, etc.

j'ai essayé

wget -bqre robots=off -A.html example.com –user-agent=”Mozilla/5.0 (Windows; U; Windows NT 5.1; en-US; rv:1.8.1.6) Gecko/20070725 Firefox/2.0.0.6″

mais quand je le fais, il ne télécharge pas les fichiers .php, télécharge simplement les fichiers statiques .html.

Existe-t-il une solution à ce problème avec wget?

Réponses:


6

Vous avez explicitement dit à wget de n'accepter que les fichiers ayant .htmlcomme suffixe.

En supposant que les pages php ont .php, vous pouvez le faire:

wget -bqre robots=off -A.html,.php example.com –user-agent=”Mozilla/5.0 (Windows; U; Windows NT 5.1; en-US; rv:1.8.1.6) Gecko/20070725 Firefox/2.0.0.6″

Notez que cela va télécharger le HTML rendu, pas la source du php. Si la page est suffisamment dynamique, vous n'obtiendrez peut-être pas le résultat attendu.

Cependant, je suggère qu'un autre outil tel que httrack puisse faire un meilleur travail - cela dépend exactement de ce que vous devez faire.


3

-A prend une liste, donc -A.html, .php devrait convenir. Vous devriez également regarder dans -R (cela prend également une liste de rejet).


En utilisant notre site, vous reconnaissez avoir lu et compris notre politique liée aux cookies et notre politique de confidentialité.
Licensed under cc by-sa 3.0 with attribution required.