J'utilise la commande suivante pour grep plage de jeux de caractères pour le code hexadécimal 0900 (au lieu de अ) à 097F (au lieu de व). Comment puis-je utiliser du code hexadécimal à la place de अ et व?
bzcat archive.bz2 | grep -v '<[अ-व]*\s' | tr '[:punct:][:blank:][:digit:]' '\n' | uniq | grep -o '^[अ-व]*$' | sort -f | uniq -c | sort -nr | head -50000 | awk '{print "<w f=\""$1"\">"$2"</w>"}' > hindi.xml
J'obtiens la sortie suivante:
<w f="399651">और</w>
<w f="264423">एक</w>
<w f="213707">पर</w>
<w f="74728">कर</w>
<w f="44281">तक</w>
<w f="35125">कई</w>
<w f="26628">द</w>
<w f="23981">इन</w>
<w f="22861">जब</w>
...
Je veux juste utiliser du code hexadécimal au lieu de अ et व dans la commande ci-dessus.
Si l'utilisation du code hexadécimal n'est pas du tout possible, puis-je utiliser unicode au lieu du code hexadécimal pour le jeu de caractères ('अ-व')?
J'utilise Ubuntu 10.04
-v
Inverse également la correspondance, à partir du texte de votre question, il semble que ce ne soit pas ce que vous voulez.