Comment puis-je télécharger un site web entier?


81

Je veux télécharger un site Web entier (avec des sous-sites). Y at-il un outil pour cela?


1
qu'est-ce que vous essayez exactement d'atteindre? le titre et le contenu de votre question ne sont pas liés et le contenu n'est pas spécifique.
RolandiXor

NB: seuls les liens suivants (par exemple, utiliser --convert-linksdans wget) ne révéleront pas les sites qui ne sont révélés qu'en soumettant un formulaire, entre autres choses.
Steven

Réponses:


140

Essayez l'exemple 10 à partir d' ici :

wget --mirror -p --convert-links -P ./LOCAL-DIR WEBSITE-URL
  • –mirror : activer les options appropriées pour la mise en miroir.

  • -p : téléchargez tous les fichiers nécessaires pour afficher correctement une page HTML donnée.

  • --convert-links : après le téléchargement, convertir les liens dans le document pour une visualisation locale.

  • -P ./LOCAL-DIR : enregistrez tous les fichiers et répertoires dans le répertoire spécifié.

Existe-t-il un moyen de ne télécharger que certaines pages (par exemple, plusieurs parties d'un article réparties sur plusieurs documents HTML)?
don.joey

@Private Oui, bien qu'il soit probablement plus facile d'utiliser python ou un moyen d'obtenir les pages (en fonction de la disposition / de l'url). Si l'URL des pages diffère d'un nombre toujours croissant ou si vous avez une liste des pages, vous pouvez probablement utiliser wget dans un script bash.
Vreality

2
Vous pourriez envisager d'utiliser l' --wait=secondsargument si vous souhaitez être plus convivial sur le site; il attendra le nombre de secondes spécifié entre les extractions.
belacqua

Ce qui précède fonctionne, mais pour joomla, l’URL paramétrée crée des fichiers qui ne sont pas liés localement. Celui qui a fonctionné pour moi est wget -m -k -K -K yourEdomain.com à partir d'ici: vaasa.hacklab.fi/2013/11/28/…
M.Hefny le

1
Aussi --no-parentpour "ne jamais monter au répertoire parent" pris à partir d' ici .
Daniel

38

HTTrack pour Linux copiant des sites Web en mode hors connexion

httrack est l'outil que vous recherchez.

HTTrack vous permet de télécharger un site Web à partir d’Internet dans un répertoire local, de créer de manière récursive tous les répertoires, d’obtenir du HTML, des images et d’autres fichiers du serveur sur votre ordinateur. HTTrack organise la structure de liens relative du site d'origine.


7

Avec wgetvous pouvez télécharger un site Web entier, vous devez utiliser -rswitch pour un téléchargement récursif . Par exemple,

wget -r http://www.google.com

6

WEBHTTRACK WEBSITE COPIER est un outil pratique pour télécharger un site Web complet sur votre disque dur en vue d'une navigation hors ligne. Lancez le centre de logiciels ubuntu et saisissez "guillemets de site Web" sans les guillemets dans le champ de recherche. sélectionnez-le et téléchargez-le du centre logiciel sur votre système. démarrez la webHTTrack à partir du menu de lancement ou du menu de démarrage, à partir de là, vous pourrez commencer à profiter de cet outil formidable pour les téléchargements de votre site


3

Je ne connais pas les sous-domaines, à savoir les sous-sites, mais wget peut être utilisé pour récupérer un site complet. Jetez un oeil à la question de ce superutilisateur . Il dit que vous pouvez utiliser -D domain1.com,domain2.compour télécharger différents domaines dans un seul script. Je pense que vous pouvez utiliser cette option pour télécharger des sous-domaines, par exemple-D site1.somesite.com,site2.somesite.com


1

J'utilise Burp - l'outil spider est beaucoup plus intelligent que wget et peut être configuré pour éviter les sections si nécessaire. La suite Burp elle-même est un ensemble puissant d’outils facilitant les tests, mais l’outil spider est très efficace.


1
Burp Windows n'est-il pas uniquement? Le contrat de licence en source fermée pour Burp est également assez lourd. Sans parler de l'étiquette de prix 299,00 $:
Kat Amsterdam

de la licence: AVERTISSEMENT: BURP SUITE FREE EDITION EST CONÇU POUR TESTER POUR DES SOURCES DE SÉCURITÉ ET PEUT ENDOMMAGER LES SYSTÈMES CIBLES EN RAISON DE LA NATURE DE SA FONCTIONNALITÉ. TESTER POUR LES MOTIFS DE SÉCURITÉ IMPLIQUANT INHÉRENTS D'INTERAGER AVEC LES OBJECTIFS DE MANIÈRE NON STANDARD, CE QUI PEUT CAUSER DES PROBLÈMES DANS CERTAINES OBJECTIFS VULNÉRABLES. VOUS DEVEZ JOUER ATTENTIVEMENT LORS DE L’UTILISATION DU LOGICIEL, VOUS DEVEZ LIRE TOUTES LES DOCUMENTS AVANT L’UTILISATION, VOUS DEVEZ SAUVEGARDER LES SYSTÈMES CIBLES AVANT L’UTILISATION ET VOUS NE DEVEZ PAS UTILISER LE LOGICIEL SUR DES SYSTÈMES DE PRODUCTION OU AUTRES SYSTÈMES POUR LESQUELS LE RISQUE DE DOMMAGES NE SERA PAS ACCEPTÉ PAR VOUS. .
Kat Amsterdam

Pour ce qu'il fait, l'étiquette de prix est incroyablement bon marché - je recommanderais de l'acheter pour une large gamme de tests de sécurité. Et il est très facile de le configurer pour qu'il teste exactement comme vous le souhaitez - plus sûr que AppScan dans certains cas :-)
Rory Alsop

1
@KatAmsterdam En ce qui concerne plus particulièrement la question de la compatibilité: Selon Wikipedia , Burp Suite est une application Java, elle devrait donc fonctionner correctement sur Ubuntu.
Eliah Kagan

Kat - il fonctionne parfaitement sur différentes versions de Linux. L’avertissement sur la licence est identique à tout outil que vous pouvez utiliser pour les évaluations de sécurité.
Rory Alsop

1

Vous pouvez télécharger toute la commande du site Web:

wget -r -l 0 website

Exemple :

wget -r -l 0 http://google.com

Pouvez-vous s'il vous plaît expliquer comment cette commande fonctionne? Ce qu'il fait?
Kaz Wolfe

0

Si la rapidité vous préoccupe (et que le serveur ne fonctionne pas bien), vous pouvez essayer puf , qui fonctionne comme wget mais peut télécharger plusieurs pages en parallèle. Ce n'est cependant pas un produit fini, pas entretenu et horriblement non documenté. Néanmoins, pour télécharger un site Web contenant de nombreux fichiers de petite taille, cela pourrait être une bonne option.

En utilisant notre site, vous reconnaissez avoir lu et compris notre politique liée aux cookies et notre politique de confidentialité.
Licensed under cc by-sa 3.0 with attribution required.