Questions marquées «web-crawler»

5
Convertir des pages Web en un seul fichier pour ebook
Je souhaite télécharger des fichiers HTML (exemple: http://www.brpreiss.com/books/opus6/ ) et les joindre à un code HTML ou à un autre format que je peux utiliser sur le lecteur de livres électroniques. Les sites avec des livres gratuits n'ont pas de pagination standard, ce ne sont pas des blogs ou des …


2
Comment explorer en utilisant wget pour télécharger UNIQUEMENT des fichiers HTML (ignorer les images, css, js)
Essentiellement, je veux explorer un site entier avec Wget, mais j'en ai besoin pour ne JAMAIS télécharger d'autres ressources (par exemple, images, CSS, JS, etc.). Je veux seulement les fichiers HTML. Les recherches Google sont complètement inutiles. Voici une commande que j'ai essayée: wget --limit-rate=200k --no-clobber --convert-links --random-wait -r -E …
14 wget  web-crawler 

4
Utilisation de Wget pour explorer récursivement un site et télécharger des images
Comment demandez-vous à wget d'explorer récursivement un site Web et de télécharger uniquement certains types d'images? J'ai essayé d'utiliser cela pour explorer un site et télécharger uniquement des images Jpeg: wget --no-parent --wait=10 --limit-rate=100K --recursive --accept=jpg,jpeg --no-directories http://somedomain/images/page1.html Cependant, même si page1.html contient des centaines de liens vers des sous-pages, …



1
wget décide de ne pas charger en raison de la liste noire
J'essaie de faire une copie complète d'un site Web; par exemple., http://vfilesarchive.bgmod.com/files/ je suis entrain de courir wget -r -level=inf -R "index.html*" --debug http://vfilesarchive.bgmod.com/files/ et obtenir, par exemple Deciding whether to enqueue "http://vfilesarchive.bgmod.com/files/Half-Life%D0%92%D0%86/". Already on the black list. Decided NOT to load it. Qu'est-ce qui se passe? Qu'est-ce que wget …


0
Comment extraire le texte de sites Web
Je recherche un moyen d'automatiser l'extraction de texte de plusieurs sites Web vers un document Word. Une fois collé dans le mot doc, il me faut coller avec "fusionner le formatage". Voici comment je voudrais que le texte extrait se termine après avoir été collé dans le mot doc - …

En utilisant notre site, vous reconnaissez avoir lu et compris notre politique liée aux cookies et notre politique de confidentialité.
Licensed under cc by-sa 3.0 with attribution required.