python - 使用 python 解压缩 .gz 文件的一部分

Question

所以这就是问题所在。我有大约 60KB 大小的 sample.gz 文件。我想解压这个文件的前 2000 个字节。我遇到了 CRC check failed 错误，我猜是因为 gzip CRC 字段出现在文件末尾，它需要整个 gzip 文件解压缩。有没有办法解决这个问题？我不关心CRC检查。即使我因为 CRC 错误而无法解压，也没关系。有没有办法解决这个问题并解压缩部分 .gz 文件？

我到目前为止的代码是

import gzip
import time
import StringIO

file = open('sample.gz', 'rb')
mybuf = MyBuffer(file)
mybuf = StringIO.StringIO(file.read(2000))
f = gzip.GzipFile(fileobj=mybuf)
data = f.read()
print data

遇到的错误是

File "gunzip.py", line 27, in ?
    data = f.read()
File "/usr/local/lib/python2.4/gzip.py", line 218, in read
  self._read(readsize)
File "/usr/local/lib/python2.4/gzip.py", line 273, in _read
  self._read_eof()
File "/usr/local/lib/python2.4/gzip.py", line 309, in _read_eof
  raise IOError, "CRC check failed"
IOError: CRC check failed

还有什么方法可以使用 zlib 模块来执行此操作并忽略 gzip 标头？

score 14 · Accepted Answer

gzip 模块的问题不在于它无法解压部分文件，而是仅在最后尝试验证解压缩内容的校验和时才会出现错误。（原始校验和存储在压缩文件的末尾，因此验证永远不会使用部分文件。）

关键是欺骗 gzip 跳过验证。caesar0301的答案是通过修改 gzip 源代码来做到这一点，但没必要走那么远，简单的猴子补丁就可以了。gzip.GzipFile._read_eof我在解压部分文件时编写了这个上下文管理器来临时替换：

import contextlib

@contextlib.contextmanager
def patch_gzip_for_partial():
    """
    Context manager that replaces gzip.GzipFile._read_eof with a no-op.

    This is useful when decompressing partial files, something that won't
    work if GzipFile does it's checksum comparison.

    """
    _read_eof = gzip.GzipFile._read_eof
    gzip.GzipFile._read_eof = lambda *args, **kwargs: None
    yield
    gzip.GzipFile._read_eof = _read_eof

一个示例用法：

from cStringIO import StringIO

with patch_gzip_for_partial():
    decompressed = gzip.GzipFile(StringIO(compressed)).read()

score 12 · Accepted Answer

我似乎您需要查看Python zlib库

GZIP 格式依赖于 zlib，但引入了文件级压缩概念以及 CRC 检查，这似乎是您目前不想要/不需要的。

例如，参见Dough Hellman 的这些代码片段

编辑：Doubh Hellman 网站上的代码仅显示如何使用 zlib 进行压缩或解压缩。如上所述，GZIP 是“带有信封的 zlib”，在获取 zlib 压缩数据本身之前，您需要对信封进行解码。这里有更多关于它的信息，它真的没有那么复杂：

有关 GZIP 格式的详细信息，请参阅RFC 1952
这种格式以 10 字节的标头开头，然后是可选的非压缩元素，例如文件名或注释，然后是 zlib 压缩数据，其本身后跟 CRC-32（准确地说是“Adler32”CRC）。
通过使用Python 的 struct 模块，解析头部应该比较简单
然后可以使用 python 的 zlib 模块解压缩 zlib 序列（或其前几千字节，因为这是您想要做的），如上面的示例所示
可能要处理的问题：如果 GZip 存档中有多个文件，并且如果第二个文件在我们希望解压缩的几千字节的块内开始。

很抱歉既没有提供简单的程序也没有提供现成的片段，但是使用上述指示解码文件应该相对快速和简单。

score 10 · Accepted Answer

我看不出您想要解压缩前 2000 个压缩字节的任何可能原因。根据数据，这可能会解压缩为任意数量的输出字节。

当然，您想解压缩文件，并在您根据需要解压缩文件时停止，例如：

f = gzip.GzipFile(fileobj=open('postcode-code.tar.gz', 'rb'))
data = f.read(4000)
print data

AFAIK，这不会导致整个文件被读取。它只会读取获得前 4000 个字节所需的量。

score 2 · Accepted Answer

我在Linux下使用我的python脚本读取gzip工具生成的压缩文件时也遇到了这个问题，并且原始文件丢失了。

通过阅读 Python 的gzip.py的实现，我发现 gzip.GzipFile 有类似 File 类的方法，并利用 python zip 模块来处理数据解压缩。同时，_read_eof() 方法也用于检查每个文件的 CRC。

但在某些情况下，例如处理没有正确 CRC 的 Stream 或 .gz 文件（我的问题），_read_eof() 将引发 IOError("CRC check failed")。因此，我尝试修改 gzip 模块以禁用 CRC 检查，最后这个问题消失了。

def _read_eof(self):
    pass

https://github.com/caesar0301/PcapEx/blob/master/live-scripts/gzip_mod.py

我知道这是一个蛮力解决方案，但是使用 zip 模块重写一些低级方法可以节省很多时间，例如从压缩文件中逐个读取数据并逐行提取数据，其中大部分已经存在于 gzip 模块中。

贾敏

python - 使用 python 解压缩 .gz 文件的一部分

4 回答 4

Related

Reference