J'ai un gros fichier trié avec des milliards de lignes de longueurs variables. Étant donné une nouvelle ligne, je voudrais savoir quel numéro d'octet il obtiendrait s'il avait été inclus dans le fichier trié.
Exemple
a\n
c\n
d\n
f\n
g\n
Étant donné l'entrée 'foo', j'obtiendrais la sortie 9.
C'est facile à faire en parcourant tout le fichier, mais étant des milliards de lignes de longueurs variables, il serait plus rapide de faire une recherche binaire.
Un tel outil de traitement de texte existe-t-il déjà?
Éditer:
Il le fait maintenant: https://gitlab.com/ole.tange/tangetools/blob/master/bsearch/bsearch