Je veux récupérer tout ce qui se trouve entre ces deux balises - <tr> </tr>
- à partir d'un document html. Maintenant, je n'ai pas d'exigences HTML spécifiques qui justifieraient un analyseur HTML. J'ai simplement besoin de quelque chose qui corresponde <tr>
et </tr>
obtienne tout entre les deux et il pourrait y avoir plusieurs tr
s. J'ai essayé awk, qui fonctionne, mais pour une raison quelconque, il finit par me donner des doublons de chaque ligne extraite.
awk '
/<TR/{p=1; s=$0}
p && /<\/TR>/{print $0 FS s; s=""; p=0}
p' htmlfile> newfile
Que faire à ce propos?
awk
fonctionne mais donne des doublons essayez de passer la sortie de votre awk sort -u
pour les rendre distincts
'/<tr/{p=1}; p; /<\/tr>/{p=0}'
. Publiez un exemple d'entrée et de sortie attendue si cela ne fonctionne pas.