2

我将如何编写一种方法来压缩不包含头文件的 Gzip 字符串,并将其压缩到我解压缩它之前的完全相同的方式。原始压缩是在 C# 中完成的,我在 Ruby 中使用以下方法进行膨胀:

编辑:基本上,想要这个膨胀匹配的 deflate 方法:

def inflate(string)
    zstream = Zlib::Inflate.new(-Zlib::MAX_WBITS)
    buf = zstream.inflate(string)
    zstream.finish
    zstream.close
    buf
end

解压前的字符串为:

"5\x891\n\xC30\x10\x04{\xBDb\xEB\xE0F&\x81\xA4\xCA3\xDC\xA81\xD2\x1A]\xA1\x13\xB1.\x100\xFEF\xDE\e\x19\x9Cb\x99Yf\xCA\xB3A\x1A,\x13\xB1\x96R\x15I\x96\x85+5\x12\xA2=\xF4:\xAFb\xB9\xD0$\xA2\xF1\xF5>\xDA\xD3\xB9\x9A\xA8f\xFC\xD8\xE6\xFD\x00\x7F\xEB{\f!Uk{\xCF,\x91\xDC\x1C\x10J\xC4\xF7z\xCA\xE8p9\xF8\xFF\xF7\x93\xDEw\xD9\x7F"

使用inflate解压后是:

    "What is the common difference in this arithmetic sequence?\n\n\\indenttext{11, 15, 19,\\dots}\n\n\\emcee{\n  \\mc \x964\n  \\mc 2\n *\\mc 4\n  \\mc 8\n  \\mc 11\n  }"

我尝试过创建多个放气方法,但没有一个可以将其恢复为原始方法。谢谢你的帮助!

编辑:原始压缩是在 .NET 2.0 中使用以下方法完成的

byte[] compressedStringBytes = CompressGzipString(String);

和 CompressGzipString 做:

MemoryStream compressed = new MemoryStream();
DeflaterOutputStream zosCompressed = new DeflaterOutputStream(compressed, new Deflater(Deflater.BEST_COMPRESSION, true));
zosCompressed.Write(data, 0, data.Length);

如果无法将其还原为确切的原始文件,那么最标准化的压缩是什么,我的意思是一般压缩,并且能够以与原始文件相同的方式进行解压缩?

4

2 回答 2

2

这取决于它在 C# 中是如何被压缩的;在 .NET 4.5 之前System.IO.DeflateStream/GZipStream,C# 中的类使用了与 zlib 显着不同的 Microsoft 实现的 DEFLATE(这意味着您可能无法使用 zlib 轻松模拟它)。在几乎所有情况下都更糟,所以在 .NET 4.5 中,他们用 zlib 替换了它,它应该能够匹配你在 Ruby 中可以做的事情。

如果您知道生成字符串的 C# 版本,您可以确定是否可以返回原始字节。如果它是使用 .NET 4.5 生成的,您应该能够使用相同的设置进行标准放气以获得相同的字节。

于 2012-12-27T17:50:45.890 回答
0

不同的压缩器,相同压缩器的不同版本,或具有不同设置的相同压缩器的相同版本,即使它们都使用相同的压缩数据格式(例如放气),也可以并且经常会为相同的输入产生不同的输出。唯一可以保证的是,当您解压缩时,您会得到与开始时完全相同的东西。事实上,这就是您真正需要的保证。为什么你想要完全相同的压缩流?

正如 Ron Warholic 所指出的,您甚至不希望从 .NET 4.5 之前的 .NET 损坏的 deflate 实现中恢复相同的压缩输出。由于 .NET 2.0 使用了它自己独特的、损坏的、deflate 实现,你不能用使用 zlib 的 ruby​​ 来复制它。

同样正如 Ron Warholic 所指出的,ruby 和 .NET 4.5 或更高版本都使用 zlib,因此都应该使用相同的压缩级别产生相同的压缩输出。虽然这不能永远保证,因为新版本的 zlib 可能会产生不同的输出,而 ruby​​ 或 .NET 中的一个可能会更新到它,而另一个不会。同样如下所述,您无法直接控制 .NET 类的压缩级别。

如果无法将其还原为确切的原始文件,那么最标准化的压缩是什么,我的意思是一般压缩,并且能够以与原始文件相同的方式进行解压缩?

无损压缩和解压缩的任何正确实现都将具有此属性。无论压缩数据可能有何不同,您都将始终返回到确切的原始数据。没有“最标准化的压缩”。

Zlib::Inflate.new(-Zlib::MAX_WBITS)期待一个原始的放气流,没有标题或预告片。因此,您需要在 C# 端生成它。

.NET 文档中不清楚DeflateStream该类是压缩为 deflate 格式还是 zlib 格式(后者是带有 zlib 包装器的 deflate 格式,由两个前缀字节和四个后缀字节组成,用于数据完整性检查)。如果它压缩为 deflate 格式,那么它将与您的Zlib::Inflate.new(-Zlib::MAX_WBITS). 如果它压缩为 zlib 格式,那么它将兼容Zlib::Inflate.new(Zlib::MAX_WBITS)(即没有减号)。或者您可以删除前两个字节和最后四个字节以返回放气流。

.NET 中的DeflateStream类有点奇怪,因为它CompressionLevel只有enum三个选项,而不是 zlib (0..9) 提供的十个级别。三个选项是OptimalFastestNoCompression。最后一个必须是0,第一个可能是9,中间一个可能是1或3。无论如何,默认压缩级别是没有选项的!该级别 (6) 是压缩与时间的非常好的平衡。

您可能要考虑改用DotNetZip。它为 zlib 提供了一个完整的接口,因此您可以准确地指定您想要做什么,并知道会发生什么。

于 2012-12-27T19:05:21.133 回答