J'ai quelques centaines de fichiers de code source html. J'ai besoin d'extraire le contenu d'un <div>élément particulier de chacun de ces fichiers, donc je vais écrire un script pour parcourir chaque fichier. La structure de l'élément est la suivante:
<div id='the_div_id'>
<div id='some_other_div'>
<h3>Some content</h3>
</div>
</div>
Quelqu'un peut-il suggérer une méthode par laquelle je peux extraire le div the_div_idet tous les éléments enfants et le contenu d'un fichier en utilisant la ligne de commande linux?
hxselectest plus pointilleux sur le format d'entrée quepup. Par exemple, je reçoisInput is not well-formed. (Maybe try normalize?)avechxselectoùpupvient l' analyser.