Réponses:
Selon les informations sur l'accès des robots à nos pages :
L'accès des robots à notre site doit être laissé comme dernière ressource, lorsque tout le reste a échoué. N'oubliez pas non plus que le site Web du projet Gutenberg est protégé par des droits d'auteur.
Cependant, il y a de l'espoir :
Meilleures alternatives
- Obtenez une version hors ligne du site Web du projet Gutenberg.
- Obtenez tous les fichiers ebook de Project Gutenberg.
- Obtenez les données du catalogue Project Gutenberg.
Et:
[...] Vous pouvez obtenir tous nos livres électroniques dans des fichiers compressés en pointant votre robot sur http://www.gutenberg.org/robot/harvest
[...] Le déballage des fichiers zip produira encore 70 000 fichiers.
Voici un exemple de la façon d'obtenir tous les fichiers en utilisant
wget
:wget -w 2 -m http://www.gutenberg.org/robot/harvest
[...] Si vous ne voulez que certains types de fichiers, dites:
wget -w 2 -m http://www.gutenberg.org/robot/harvest?filetypes[]=txt
[...] Si vous ne voulez que des fichiers dans une langue donnée, dites:
wget -w 2 -m http://www.gutenberg.org/robot/harvest?langs[]=de
Donc, je cesserais:
wget -w 2 -m http://www.gutenberg.org/robot/harvest?filetypes[]=txt&langs[]=en
--level=0
. Mais je suppose que vous feriez mieux de permettre d'interrompre et de redémarrer: essayez --level 9999 --no-clobber
, qui ignorera les fichiers que vous avez déjà (en supposant que vous êtes toujours dans le même dossier sur le disque).
--input-file
dans le manuel .
-c
option, mais quand même. J'ai donné offset=xxx
l'URL à refléter, mais elle est toujours téléchargée à partir de la première page.
Vous pouvez télécharger l' intégralité de la collection Gutenberg de livres en anglais et d'autres langues dans un seul fichier ZIM, qui est hautement compressé et peut ensuite être ouvert avec Kiwix à la fois sur le bureau et Android. Les livres en anglais font 40 Go.
Bien que la réponse sélectionnée soit correcte, elle entraînera potentiellement deux problèmes:
wget
commande échouera, c'est des contrôles récursifs lors du téléchargement des fichiers à partir d'un miroir externe.La solution ci-dessous résout ces problèmes:
wget -H -w 2 -m http://www.gutenberg.org/robot/harvest?filetypes[]=txt&langs[]=en \
--referer="http://www.google.com" \
--user-agent="Mozilla/5.0 (Windows; U; Windows NT 5.1; en-US; rv:1.8.1.6) Gecko/20070725 Firefox/2.0.0.6" \
--header="Accept: text/xml,application/xml,application/xhtml+xml,text/html;q=0.9,text/plain;q=0.8,image/png,*/*;q=0.5" \
--header="Accept-Language: en-us,en;q=0.5" \
--header="Accept-Encoding: gzip,deflate" \
--header="Accept-Charset: ISO-8859-1,utf-8;q=0.7,*;q=0.7" \
--header="Keep-Alive: 300"
Vous souhaiterez peut-être modifier le référent et les chaînes d'agent utilisateur pour fournir un peu d'aléatoire.
ftp://mirrors.pglaf.org/mirrors/gutenberg-iso a quelques bonnes options.
ftp://mirrors.pglaf.org/mirrors/gutenberg-iso/pgdvd042010.iso est un fichier de 8 Go qui devrait être suffisant pour vos besoins.
Il y a plus d'informations ici:
https://www.gutenberg.org/wiki/Gutenberg:The_CD_and_DVD_Project#Downloading_Via_FTP , il donne toutes les options de téléchargement de l'archive, y compris FTP et BitTorrent.
Une autre option est le grand outil sur http://pgiso.pglaf.org/ .
Pourquoi ne pas utiliser toutes vos compétences et connaissances de programmation trop compliquées et illustrées ci-dessus pour créer un simple bouton qui relie toutes ces actions et dit "Télécharger tous les livres actuels" - avec un onglet d'option de langue lorsque vous cliquez dessus.
Je suis sûr que la plupart des utilisateurs qui viennent sur le site sont des collectionneurs de livres électroniques, et le téléchargement manuel de certains livres sur des sujets qui les intéressent est OK pour 1 ou 2 livres. Mais faire une plus grande collection manuellement est un frein. Néanmoins, s'ils en ont besoin pour la recherche ou s'ils souhaitent simplement posséder une énorme bibliothèque numérique de livres sur leur propre PC. La plupart des gens sont désactivés et se dispersent loin du site lorsqu'ils se rendent compte qu'ils doivent être un assistant informatique pour ce faire. encore plus de visiteurs sur le site. Ainsi, tout le monde est content.