python - 在 Python 中增量读取大型多部分压缩文本文件

Question

我有一个非常大的 zip 文件，它被分成多个部分作为拆分档案，档案中有一个文件。我没有足够的资源将这些档案组合在一起或提取它们（原始文本文件将近 1TB）。

我想逐行解析文本文件，理想情况下使用如下内容：

import zipfile
for zipfilename in filenames:
    with zipfile.ZipFile(zipfilename) as z:
        with z.open(...) as f:
            for line in f:
                print line

这可能吗？如果是这样，我该如何阅读文本文件：

不使用太多内存（将整个文件加载到内存中显然是不可能的）
无需提取任何 zip 文件
（理想情况下）不合并 zip 文件

预先感谢您的帮助。

score 3 · Accepted Answer

我来一刀。

如果您的 zip 文件是所谓的根据 Zip 文件格式的“拆分档案”，那么您将无法使用 Python 的 zipfile 库或unzip终端命令读取它们。

另一方面，如果您正在处理使用split命令或类似的字节拆分设备拆分的单个 zip 存档，您可能能够在 Python 中即时提取和读取其内容。

您将必须编写一个“类文件”自定义类，该类将接受 seek() 和 read() 方法（可能还有其他方法）并在拆分块上执行它们。

seek() 将需要计算要读取的 zip 文件，打开它（如果它不是仍然打开的当前文件）并使用偏移量的差异对其执行 seek()。

read() 将从当前打开的块中读取，处理文件结束条件，这将导致它打开下一个块并完成对它的读取。

在您编写和测试这个类之后，只需调用 ZipFile 构造函数，将您的类的一个实例作为“虚拟 zip”文件对象来打开即可。

python - 在 Python 中增量读取大型多部分压缩文本文件

1 回答 1

Related

Reference