Comment extraire tous les liens externes d'une page Web et les enregistrer dans un fichier?


11

Comment extraire tous les liens externes d'une page Web et les enregistrer dans un fichier?

Si vous avez des outils de ligne de commande, ce serait génial.

Réponses:


18

Vous aurez besoin de 2 outils, lynx et awk , essayez ceci:

$ lynx -dump http://www.google.com.br | awk '/http/{print $2}' > links.txt

Si vous avez besoin de lignes de numérotation, utilisez la commande nl , essayez ceci:

$ lynx -dump http://www.google.com.br | awk '/http/{print $2}' | nl > links.txt

Je ne pense pas que cela fonctionnera pour les URL relatives
Sridhar Sarnobat

8

Voici une amélioration de la réponse de lelton: vous n'avez pas du tout besoin de awk car le lynx a quelques options utiles.

lynx -listonly -nonumbers -dump http://www.google.com.br

si vous voulez des chiffres

lynx -listonly -dump http://www.google.com.br

0
  1. Utilisez Beautiful Soup pour récupérer les pages Web en question.
  2. Utilisez awk pour trouver toutes les URL qui ne pointent pas vers votre domaine

Je recommanderais Beautiful Soup plutôt que les techniques de grattage d'écran.


En utilisant notre site, vous reconnaissez avoir lu et compris notre politique liée aux cookies et notre politique de confidentialité.
Licensed under cc by-sa 3.0 with attribution required.