Je souhaite enregistrer cette page Web et toutes les pages auxquelles elle renvoie. et espérons avoir le même lien entre les pages Web enregistrées.
Existe-t-il des moyens au lieu d'ouvrir et d'enregistrer chaque page liée?
Je souhaite enregistrer cette page Web et toutes les pages auxquelles elle renvoie. et espérons avoir le même lien entre les pages Web enregistrées.
Existe-t-il des moyens au lieu d'ouvrir et d'enregistrer chaque page liée?
Réponses:
Vous pouvez faire ce que vous voulez avec l' utilitaire de ligne de commande wget . Si vous lui fournissez cette -r
option, il télécharge récursivement des pages Web. Par exemple:
wget -r http://mat.gsia.cmu.edu/orclass/integer/integer.html
Cela téléchargera cette page Web et tout ce à quoi elle renvoie. Vous pouvez également faire en sorte qu'il ne récapitule qu'un certain nombre de niveaux, pour ce faire, vous fournissez simplement -r
un numéro. Comme tel:
wget -r 5 http://mat.gsia.cmu.edu/orclass/integer/integer.html
Ce fil est vieux maintenant, mais d'autres pourraient le regarder. Merci, Wuffers, de m'avoir pointé dans la bonne direction mais, pour développer la réponse de Wuffers: une version moderne de wget a un certain nombre d'options utiles pour récurser les liens et les corriger pour être des liens relatifs locaux afin que vous puissiez naviguer dans une copie locale d'un site Web. Utilisez l'option -r pour recurse, l'option -k pour patcher les liens locaux, l'option -H pour traverser dans des domaines autres que celui d'origine, l'option -D pour limiter les domaines dans lesquels vous traversez, l'option -l pour limiter la profondeur de récursivité et l'option -p pour vous assurer que les feuilles de votre traversée ont tout ce dont elles ont besoin pour s'afficher correctement. Par exemple, ce qui suit télécharge une page et tout ce à quoi elle renvoie immédiatement, la rendant consultable localement,
wget -r -l 1 -p -k -H -D domain.com,relateddomain.com http://domain.com/page/in/domain
En utilisant une commande similaire à celle ci-dessus, j'ai pu télécharger un morceau d'une page wiki, avec des liens externes, sur mon disque local sans télécharger des mégaoctets de données superflues. Maintenant, lorsque j'ouvre la page racine dans mon navigateur, je peux naviguer dans l'arborescence sans connexion Internet. Le seul irritant était que la page racine était enterrée dans des sous-répertoires et j'ai dû créer une page de redirection de niveau supérieur afin de la rendre pratique à afficher. Cela peut prendre quelques essais et erreurs pour bien faire les choses. Lisez la page de manuel wget et testez.
Vous pouvez utiliser un robot d'exploration de site Web comme httrack , qui est gratuit.
Depuis le site Web;
[httrack] vous permet de télécharger un site Web sur Internet dans un répertoire local, de créer de manière récursive tous les répertoires, d’obtenir du HTML, des images et d’autres fichiers du serveur vers votre ordinateur. HTTrack organise la structure de liens relative du site d'origine. Ouvrez simplement une page du site Web "en miroir" dans votre navigateur et vous pouvez parcourir le site de lien en lien, comme si vous le consultiez en ligne.