Je veux récupérer tout ce qui se trouve entre ces deux balises - <tr> </tr>- à partir d'un document html. Maintenant, je n'ai pas d'exigences HTML spécifiques qui justifieraient un analyseur HTML. J'ai simplement besoin de quelque chose qui corresponde <tr>et </tr>obtienne tout entre les deux et il pourrait y avoir plusieurs trs. J'ai essayé awk, qui fonctionne, mais pour une raison quelconque, il finit par me donner des doublons de chaque ligne extraite.
awk '
/<TR/{p=1; s=$0}
p && /<\/TR>/{print $0 FS s; s=""; p=0}
p' htmlfile> newfile
Que faire à ce propos?
awkfonctionne mais donne des doublons essayez de passer la sortie de votre awk sort -upour les rendre distincts
'/<tr/{p=1}; p; /<\/tr>/{p=0}'. Publiez un exemple d'entrée et de sortie attendue si cela ne fonctionne pas.