Il existe déjà de nombreuses bonnes réponses, mais si tout votre fichier se trouve sur une seule ligne et que vous souhaitez toujours traiter les "lignes" (par opposition aux blocs de taille fixe), ces réponses ne vous seront d'aucune aide.
99% du temps, il est possible de traiter les fichiers ligne par ligne. Ensuite, comme suggéré dans cette réponse , vous pouvez utiliser l'objet fichier lui-même comme générateur paresseux:
with open('big.csv') as f:
for line in f:
process(line)
Cependant, j'ai rencontré une fois un très gros fichier (presque) simple, où le séparateur de lignes n'était en fait pas '\n'
mais '|'
.
- La lecture ligne par ligne n'était pas une option, mais j'avais encore besoin de la traiter ligne par ligne.
- La conversion
'|'
en '\n'
avant le traitement était également hors de question, car certains champs de ce csv contenaient '\n'
(saisie utilisateur en texte libre).
- L'utilisation de la bibliothèque csv a également été exclue car le fait que, au moins dans les premières versions de la bibliothèque, il est codé en dur pour lire l'entrée ligne par ligne .
Pour ce genre de situations, j'ai créé l'extrait de code suivant:
def rows(f, chunksize=1024, sep='|'):
"""
Read a file where the row separator is '|' lazily.
Usage:
>>> with open('big.csv') as f:
>>> for r in rows(f):
>>> process(row)
"""
curr_row = ''
while True:
chunk = f.read(chunksize)
if chunk == '': # End of file
yield curr_row
break
while True:
i = chunk.find(sep)
if i == -1:
break
yield curr_row + chunk[:i]
curr_row = ''
chunk = chunk[i+1:]
curr_row += chunk
J'ai pu l'utiliser avec succès pour résoudre mon problème. Il a été largement testé, avec différentes tailles de morceaux.
Suite de tests, pour ceux qui veulent se convaincre.
test_file = 'test_file'
def cleanup(func):
def wrapper(*args, **kwargs):
func(*args, **kwargs)
os.unlink(test_file)
return wrapper
@cleanup
def test_empty(chunksize=1024):
with open(test_file, 'w') as f:
f.write('')
with open(test_file) as f:
assert len(list(rows(f, chunksize=chunksize))) == 1
@cleanup
def test_1_char_2_rows(chunksize=1024):
with open(test_file, 'w') as f:
f.write('|')
with open(test_file) as f:
assert len(list(rows(f, chunksize=chunksize))) == 2
@cleanup
def test_1_char(chunksize=1024):
with open(test_file, 'w') as f:
f.write('a')
with open(test_file) as f:
assert len(list(rows(f, chunksize=chunksize))) == 1
@cleanup
def test_1025_chars_1_row(chunksize=1024):
with open(test_file, 'w') as f:
for i in range(1025):
f.write('a')
with open(test_file) as f:
assert len(list(rows(f, chunksize=chunksize))) == 1
@cleanup
def test_1024_chars_2_rows(chunksize=1024):
with open(test_file, 'w') as f:
for i in range(1023):
f.write('a')
f.write('|')
with open(test_file) as f:
assert len(list(rows(f, chunksize=chunksize))) == 2
@cleanup
def test_1025_chars_1026_rows(chunksize=1024):
with open(test_file, 'w') as f:
for i in range(1025):
f.write('|')
with open(test_file) as f:
assert len(list(rows(f, chunksize=chunksize))) == 1026
@cleanup
def test_2048_chars_2_rows(chunksize=1024):
with open(test_file, 'w') as f:
for i in range(1022):
f.write('a')
f.write('|')
f.write('a')
# -- end of 1st chunk --
for i in range(1024):
f.write('a')
# -- end of 2nd chunk
with open(test_file) as f:
assert len(list(rows(f, chunksize=chunksize))) == 2
@cleanup
def test_2049_chars_2_rows(chunksize=1024):
with open(test_file, 'w') as f:
for i in range(1022):
f.write('a')
f.write('|')
f.write('a')
# -- end of 1st chunk --
for i in range(1024):
f.write('a')
# -- end of 2nd chunk
f.write('a')
with open(test_file) as f:
assert len(list(rows(f, chunksize=chunksize))) == 2
if __name__ == '__main__':
for chunksize in [1, 2, 4, 8, 16, 32, 64, 128, 256, 512, 1024]:
test_empty(chunksize)
test_1_char_2_rows(chunksize)
test_1_char(chunksize)
test_1025_chars_1_row(chunksize)
test_1024_chars_2_rows(chunksize)
test_1025_chars_1026_rows(chunksize)
test_2048_chars_2_rows(chunksize)
test_2049_chars_2_rows(chunksize)
f = open('really_big_file.dat')
n'est donc qu'un pointeur sans aucune consommation de mémoire? (Je veux dire que la mémoire consommée est la même quelle que soit la taille du fichier?) Comment cela affectera-t-il les performances si j'utilise urllib.readline () au lieu de f.readline ()?