Essentiellement, je veux explorer un site entier avec Wget, mais j'en ai besoin pour ne JAMAIS télécharger d'autres ressources (par exemple, images, CSS, JS, etc.). Je veux seulement les fichiers HTML.
Les recherches Google sont complètement inutiles.
Voici une commande que j'ai essayée:
wget --limit-rate=200k --no-clobber --convert-links --random-wait -r -E -e robots=off -U "Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/32.0.1700.102 Safari/537.36" -A html --domain=www.example.com http://www.example.com
Notre site est hybride flat-PHP et CMS. Ainsi, "fichiers" HTML pourrait être /path/to/page
, /path/to/page/
, /path/to/page.php
ou /path/to/page.html
.
J'ai même inclus, -R js,css
mais il télécharge toujours les fichiers, puis les rejette (gaspillage inutile de bande passante, de CPU et de charge du serveur!).
Length: 558 [text/css]
sur les fichiers que je ne veux pas. Si je pouvais arrêter la demande si l'en-tête ne revient pas text/html
, je serais ravi.