Comment extraire tous les liens externes d'une page Web et les enregistrer dans un fichier?

Si vous avez des outils de ligne de commande, ce serait génial.

linux command-line

— RogerioO
source

Réponses:

Vous aurez besoin de 2 outils, lynx et awk , essayez ceci:

$ lynx -dump http://www.google.com.br | awk '/http/{print $2}' > links.txt

Si vous avez besoin de lignes de numérotation, utilisez la commande nl , essayez ceci:

$ lynx -dump http://www.google.com.br | awk '/http/{print $2}' | nl > links.txt

— Ielton
source

Je ne pense pas que cela fonctionnera pour les URL relatives

— Sridhar Sarnobat

Voici une amélioration de la réponse de lelton: vous n'avez pas du tout besoin de awk car le lynx a quelques options utiles.

lynx -listonly -nonumbers -dump http://www.google.com.br

si vous voulez des chiffres

lynx -listonly -dump http://www.google.com.br

— Max
source

Je recommanderais Beautiful Soup plutôt que les techniques de grattage d'écran.

— Wesley
source

si la ligne de commande n'est pas une force, vous pouvez utiliser l' extension Firefox All Links Links .

— Majid Azimi
source

En utilisant notre site, vous reconnaissez avoir lu et compris notre politique liée aux cookies et notre politique de confidentialité.

Licensed under cc by-sa 3.0 with attribution required.