8

所以这就是问题所在。我有大约 60KB 大小的 sample.gz 文件。我想解压这个文件的前 2000 个字节。我遇到了 CRC check failed 错误,我猜是因为 gzip CRC 字段出现在文件末尾,它需要整个 gzip 文件解压缩。有没有办法解决这个问题?我不关心CRC检查。即使我因为 CRC 错误而无法解压,也没关系。有没有办法解决这个问题并解压缩部分 .gz 文件?

我到目前为止的代码是

import gzip
import time
import StringIO

file = open('sample.gz', 'rb')
mybuf = MyBuffer(file)
mybuf = StringIO.StringIO(file.read(2000))
f = gzip.GzipFile(fileobj=mybuf)
data = f.read()
print data

遇到的错误是

File "gunzip.py", line 27, in ?
    data = f.read()
File "/usr/local/lib/python2.4/gzip.py", line 218, in read
  self._read(readsize)
File "/usr/local/lib/python2.4/gzip.py", line 273, in _read
  self._read_eof()
File "/usr/local/lib/python2.4/gzip.py", line 309, in _read_eof
  raise IOError, "CRC check failed"
IOError: CRC check failed

还有什么方法可以使用 zlib 模块来执行此操作并忽略 gzip 标头?

4

4 回答 4

14

gzip 模块的问题不在于它无法解压部分文件,而是仅在最后尝试验证解压缩内容的校验和时才会出现错误。(原始校验和存储在压缩文件的末尾,因此验证永远不会使用部分文件。)

关键是欺骗 gzip 跳过验证。caesar0301的答案是通过修改 gzip 源代码来做到这一点,但没必要走那么远,简单的猴子补丁就可以了。gzip.GzipFile._read_eof我在解压部分文件时编写了这个上下文管理器来临时替换:

import contextlib

@contextlib.contextmanager
def patch_gzip_for_partial():
    """
    Context manager that replaces gzip.GzipFile._read_eof with a no-op.

    This is useful when decompressing partial files, something that won't
    work if GzipFile does it's checksum comparison.

    """
    _read_eof = gzip.GzipFile._read_eof
    gzip.GzipFile._read_eof = lambda *args, **kwargs: None
    yield
    gzip.GzipFile._read_eof = _read_eof

一个示例用法:

from cStringIO import StringIO

with patch_gzip_for_partial():
    decompressed = gzip.GzipFile(StringIO(compressed)).read()
于 2013-09-03T22:08:42.550 回答
12

我似乎您需要查看Python zlib

GZIP 格式依赖于 zlib,但引入了文件级压缩概念以及 CRC 检查,这似乎是您目前不想要/不需要的。

例如,参见Dough Hellman 的这些代码片段

编辑:Doubh Hellman 网站上的代码仅显示如何使用 zlib 进行压缩或解压缩。如上所述,GZIP 是“带有信封的 zlib”,在获取 zlib 压缩数据本身之前,您需要对信封进行解码。这里有更多关于它的信息,它真的没有那么复杂:

  • 有关 GZIP 格式的详细信息,请参阅RFC 1952
  • 这种格式以 10 字节的标头开头,然后是可选的非压缩元素,例如文件名或注释,然后是 zlib 压缩数据,其本身后跟 CRC-32(准确地说是“Adler32”CRC)。
  • 通过使用Python 的 struct 模块,解析头部应该比较简单
  • 然后可以使用 python 的 zlib 模块解压缩 zlib 序列(或其前几千字节,因为这是您想要做的),如上面的示例所示
  • 可能要处理的问题:如果 GZip 存档中有多个文件,并且如果第二个文件在我们希望解压缩的几千字节的块内开始。

很抱歉既没有提供简单的程序也没有提供现成的片段,但是使用上述指示解码文件应该相对快速和简单。

于 2009-11-14T00:19:33.657 回答
10

我看不出您想要解压缩前 2000 个压缩字节的任何可能原因。根据数据,这可能会解压缩为任意数量的输出字节。

当然,您想解压缩文件,并在您根据需要解压缩文件时停止,例如:

f = gzip.GzipFile(fileobj=open('postcode-code.tar.gz', 'rb'))
data = f.read(4000)
print data

AFAIK,这不会导致整个文件被读取。它只会读取获得前 4000 个字节所需的量。

于 2009-11-14T00:22:20.157 回答
2

我在Linux下使用我的python脚本读取gzip工具生成的压缩文件时也遇到了这个问题,并且原始文件丢失了。

通过阅读 Python 的gzip.py的实现,我发现 gzip.GzipFile 有类似 File 类的方法,并利用 python zip 模块来处理数据解压缩。同时,_read_eof() 方法也用于检查每个文件的 CRC。

但在某些情况下,例如处理没有正确 CRC 的 Stream 或 .gz 文件(我的问题),_read_eof() 将引发 IOError("CRC check failed")。因此,我尝试修改 gzip 模块以禁用 CRC 检查,最后这个问题消失了。

def _read_eof(self):
    pass

https://github.com/caesar0301/PcapEx/blob/master/live-scripts/gzip_mod.py

我知道这是一个蛮力解决方案,但是使用 zip 模块重写一些低级方法可以节省很多时间,例如从压缩文件中逐个读取数据并逐行提取数据,其中大部分已经存在于 gzip 模块中。

贾敏

于 2013-05-12T05:17:00.733 回答