65

我正在与一个服务器连接,该服务器需要使用Deflate算法(霍夫曼编码 + LZ77)压缩发送给它的数据,并且还发送我需要的数据到Inflate

我知道 Python 包含 Zlib,并且 Zlib 中的 C 库支持对InflateDeflate的调用,但这些显然不是由 Python Zlib 模块提供的。它确实提供了CompressDecompress,但是当我拨打如下电话时:

result_data = zlib.decompress( base64_decoded_compressed_string )

我收到以下错误:

Error -3 while decompressing data: incorrect header check

Gzip 也好不到哪里去;拨打电话时,例如:

result_data = gzip.GzipFile( fileobj = StringIO.StringIO( base64_decoded_compressed_string ) ).read()

我收到错误:

IOError: Not a gzipped file

这是有道理的,因为数据是压缩文件而不是真正的Gzipped文件。

现在我知道有可用的Deflate实现(Pyflate),但我不知道Inflate实现。

似乎有几个选择:

  1. 在 Python中查找InflateDeflate的现有实现(理想)
  2. 为包含InflateDeflate的 zlib c 库编写我自己的 Python 扩展
  3. 调用可以从命令行执行的其他东西(例如 Ruby 脚本,因为zlib 中的Inflate / Deflate调用完全包含在 Ruby 中)
  4. ?

我正在寻找解决方案,但缺乏解决方案,我会感谢您的见解、建设性意见和想法。

附加信息:出于我需要的目的,对字符串进行压缩(和编码)的结果应该与以下 C# 代码片段给出相同的结果,其中输入参数是对应于要压缩的数据的 UTF 字节数组:

public static string DeflateAndEncodeBase64(byte[] data)
{
    if (null == data || data.Length < 1) return null;
    string compressedBase64 = "";

    //write into a new memory stream wrapped by a deflate stream
    using (MemoryStream ms = new MemoryStream())
    {
        using (DeflateStream deflateStream = new DeflateStream(ms, CompressionMode.Compress, true))
        {
            //write byte buffer into memorystream
            deflateStream.Write(data, 0, data.Length);
            deflateStream.Close();

            //rewind memory stream and write to base 64 string
            byte[] compressedBytes = new byte[ms.Length];
            ms.Seek(0, SeekOrigin.Begin);
            ms.Read(compressedBytes, 0, (int)ms.Length);
            compressedBase64 = Convert.ToBase64String(compressedBytes);
        }
    }
    return compressedBase64;
}

为字符串“deflate and encode me”运行这个 .NET 代码会得到结果

7b0HYBxJliUmL23Ke39K9UrX4HShCIBgEyTYkEAQ7MGIzeaS7B1pRyMpqyqBymVWZV1mFkDM7Z28995777333nvvvfe6O51OJ/ff/z9cZmQBbPbOStrJniGAqsgfP358Hz8iZvl5mbV5mi1nab6cVrM8XeT/Dw==

当“deflate and encode me”通过 Python Zlib.compress() 运行然后 base64 编码时,结果是“eJxLSU3LSSxJVUjMS1FIzUvOT0lVyE0FAFXHB6k=”。

很明显,zlib.compress() 不是与标准 Deflate 算法相同的算法的实现。

更多信息

.NET deflate 数据(“7b0HY...”)的前 2 个字节,经过 b64 解码后为 0xEDBD,不对应 Gzip 数据(0x1f8b)、BZip2(0x425A)数据或 Zlib(0x789C)数据。

Python 压缩数据(“eJxLS...”)的前 2 个字节,经过 b64 解码后为 0x789C。这是一个 Zlib 标头。

解决了

要在没有标头和校验和的情况下处理原始 deflate 和 inflate,需要进行以下操作:

在放气/压缩:去除前两个字节(标题)和最后四个字节(校验和)。

在膨胀/解压缩:窗口大小有第二个参数。如果此值为负数,它将抑制标头。这是我目前的方法,包括 base64 编码/解码 - 并且工作正常:

import zlib
import base64

def decode_base64_and_inflate( b64string ):
    decoded_data = base64.b64decode( b64string )
    return zlib.decompress( decoded_data , -15)

def deflate_and_base64_encode( string_val ):
    zlibbed_str = zlib.compress( string_val )
    compressed_string = zlibbed_str[2:-4]
    return base64.b64encode( compressed_string )
4

2 回答 2

26

您仍然可以使用该zlib模块来膨胀/缩小数据。该gzip模块在内部使用它,但添加了一个文件头以使其成为 gzip 文件。查看gzip.py文件,这样的事情可能会起作用:

import zlib

def deflate(data, compresslevel=9):
    compress = zlib.compressobj(
            compresslevel,        # level: 0-9
            zlib.DEFLATED,        # method: must be DEFLATED
            -zlib.MAX_WBITS,      # window size in bits:
                                  #   -15..-8: negate, suppress header
                                  #   8..15: normal
                                  #   16..30: subtract 16, gzip header
            zlib.DEF_MEM_LEVEL,   # mem level: 1..8/9
            0                     # strategy:
                                  #   0 = Z_DEFAULT_STRATEGY
                                  #   1 = Z_FILTERED
                                  #   2 = Z_HUFFMAN_ONLY
                                  #   3 = Z_RLE
                                  #   4 = Z_FIXED
    )
    deflated = compress.compress(data)
    deflated += compress.flush()
    return deflated

def inflate(data):
    decompress = zlib.decompressobj(
            -zlib.MAX_WBITS  # see above
    )
    inflated = decompress.decompress(data)
    inflated += decompress.flush()
    return inflated

我不知道这是否完全符合您的服务器要求,但是这两个函数能够往返我尝试的任何数据。

参数直接映射到传递给 zlib 库函数的内容。

PythonC
zlib.compressobj(...)deflateInit(...)
compressobj.compress(...)deflate(...)
zlib.decompressobj(...)inflateInit(...)
decompressobj.decompress(...)inflate(...)

构造函数创建结构并使用默认值填充它,并将其传递给 init 函数。compress/方法更新结构并将其decompress传递给inflate/ deflate

于 2009-07-07T00:12:26.347 回答
24

这是 MizardX 答案的附加内容,提供了一些解释和背景。

http://www.chiramattel.com/george/blog/2007/09/09/deflatestream-block-length-does-not-match.html

根据RFC 1950,以默认方式构造的 zlib 流由以下部分组成:

  • 一个 2 字节的标头(例如 0x78 0x9C)
  • 放气流——参见RFC 1951
  • 未压缩数据的 Adler-32 校验和(4 个字节)

C#DeflateStream在(你猜对了)一个放气流上工作。MizardX 的代码告诉 zlib 模块数据是原始的 deflate 流。

观察:(1)人们希望产生更长字符串的 C#“放气”方法只发生在短输入的情况下(2)使用没有 Adler-32 校验和的原始放气流?有点冒险,除非用更好的东西代替。

更新

错误信息Block length does not match with its complement

如果您尝试使用 C# 对一些压缩数据进行膨胀DeflateStream并收到该消息,那么您很可能给它一个 zlib 流,而不是一个 deflate 流。

请参阅如何在文件的一部分上使用 DeflateStream?

还将错误消息复制/粘贴到谷歌搜索中,你会得到很多点击(包括这个答案前面的那个)说同样的事情。

“网站”使用的 JavaDeflater ... C# DeflateStream“非常简单,并且已经针对 Java 实现进行了测试”。该网站使用了以下哪些可能的 Java Deflater 构造函数?

public Deflater(int level, boolean nowrap)

使用指定的压缩级别创建一个新的压缩器。如果 'nowrap' 为真,则不使用 ZLIB 标头和校验和字段,以支持 GZIP 和 PKZIP 中使用的压缩格式。

public Deflater(int level)

使用指定的压缩级别创建一个新的压缩器。压缩后的数据将以 ZLIB 格式生成。

public Deflater()

创建具有默认压缩级别的新压缩器。压缩后的数据将以 ZLIB 格式生成。

丢弃 2 字节 zlib 标头和 4 字节校验和后 的单行 deflater :

uncompressed_string.encode('zlib')[2:-4] # does not work in Python 3.x

或者

zlib.compress(uncompressed_string)[2:-4]
于 2009-07-07T04:31:48.543 回答