J'ai quelques centaines de fichiers de code source html. J'ai besoin d'extraire le contenu d'un <div>
élément particulier de chacun de ces fichiers, donc je vais écrire un script pour parcourir chaque fichier. La structure de l'élément est la suivante:
<div id='the_div_id'>
<div id='some_other_div'>
<h3>Some content</h3>
</div>
</div>
Quelqu'un peut-il suggérer une méthode par laquelle je peux extraire le div the_div_id
et tous les éléments enfants et le contenu d'un fichier en utilisant la ligne de commande linux?
hxselect
est plus pointilleux sur le format d'entrée quepup
. Par exemple, je reçoisInput is not well-formed. (Maybe try normalize?)
avechxselect
oùpup
vient l' analyser.