python - 在python中逐行读取一个大的压缩文本文件

Question

我正在尝试使用 zipfile 模块来读取存档中的文件。未压缩文件约为 3GB，压缩文件为 200MB。我不希望它们在内存中，因为我逐行处理压缩文件。到目前为止，我注意到使用以下代码的内存过度使用：

import zipfile
f = open(...)
z = zipfile.ZipFile(f)
for line in zipfile.open(...).readlines()
  print line

我使用 SharpZipLib 在 C# 中做到了：

var fStream = File.OpenRead("...");
var unzipper = new ICSharpCode.SharpZipLib.Zip.ZipFile(fStream);
var dataStream =  unzipper.GetInputStream(0);

dataStream 未压缩。我似乎找不到在 Python 中做到这一点的方法。帮助将不胜感激。

score 72 · Accepted Answer

Python 文件对象提供迭代器，它将逐行读取。file.readlines()将它们全部读取并返回一个列表 - 这意味着它需要将所有内容读入内存。更好的方法（应该始终优先于readlines()）是只循环对象本身，例如：

import zipfile
with zipfile.ZipFile(...) as z:
    with z.open(...) as f:
        for line in f:
            print line

请注意我对with语句的使用- 文件对象是上下文管理器，而 with 语句让我们可以轻松编写可读的代码，以确保在退出块时（即使出现异常）关闭文件。同样，在处理文件时应该始终使用它。

1 回答 1