python - adler32滚动校验和的计算差异 - python

Question

在查看计算运行校验和时需要澄清。

假设我有这样的数据。

data = 'helloworld'

假设块大小为 5，我需要计算运行校验和。

>>> zlib.adler32('hello')
103547413
>>> zlib.adler32('ellow')
105316900

根据 Python 文档（python 版本 2.7.2）

zlib.adler32(data[, value])

“计算数据的 Adler-32 校验和。（Adler-32 校验和几乎与 CRC32 一样可靠，但计算速度更快。）如果存在值，则将其用作校验和的起始值；否则，使用固定的默认值。这允许在多个输入的串联上计算运行校验和。

但是当我提供这样的东西时，

>>> zlib.adler32('ellow', zlib.adler32('hello'))
383190072

输出完全不同。

我尝试创建一个自定义函数来生成 rsync 算法中定义的滚动校验和。

def weakchecksum(data):
    a = 1
    b = 0

    for char in data:
        a += (ord(char)) % MOD_VALUE
        b += a % MOD_VALUE



    return (b << 16) | a



def rolling(checksum, removed, added, block_size):
    a = checksum
    b = (a >> 16) & 0xffff
    a &= 0xffff

    a = (a - ord(removed) + ord(added)) % MOD_VALUE
    b = (b - (block_size * ord(removed)) + a) % MOD_VALUE

    return (b << 16) | a

这是我从运行这些函数中获得的值

Weak for hello: 103547413
Rolling for ellow: 105382436
Weak for ellow: 105316900

如您所见，就价值而言，我的滚动校验和和 python 的实现存在巨大差异。

我在计算滚动校验和时哪里出错了？我是否正确使用了 python 的 adler32 函数的滚动属性？

score 7 · Accepted Answer

该adler32()功能不提供“滚动”。文档正确地使用了“运行”（而不是“滚动”）这个词，这意味着它可以以块的形式计算 adler32，而不是一次全部计算。您需要编写自己的代码来计算“滚动”adler32 值，这将是数据上滑动窗口的 adler32。

score 5 · Accepted Answer

在您的“滚动”方法中，

b = (b - (block_size * ord(removed)) + a) % MOD_VALUE

应该

b = (b - (block_size * ord(removed)) + a - 1) % MOD_VALUE

根据维基百科对adler32算法的解释，我们可以看到：

A = 1 + D1 + D2 + ... + Dn (mod 65521)
B = (1 + D1) + (1 + D1 + D2) + ... + (1 + D1 + D2 + ... + Dn) (mod 65521)
  = n×D1 + (n−1)×D2 + (n−2)×D3 + ... + Dn + n (mod 65521)

Adler-32(D) = B × 65536 + A

当我们滚动校验和时，我们将有以下等式：

A1 = (1 + D2 + D3 + … + Dn + Dn+1)(mod 65521)
= (1 + D1 + D2 + D3 + … + Dn) – D1 + Dn+1(mod 65521)
= A – D1 + Dn+1(mod 65521)
B1 = (1 + D2) + (1 + D2 + D3) + … + (1 + D2 + D3 + … + Dn + Dn+1)(mod 65521)
= (1 + D1) – D1 – 1 + (1 + D1 + D2) – D1 + ... +(1 + D1 + D2 + … + Dn) – D1 + (1 + D1 + D2 +      … + Dn + Dn+1) – D1(mod 65521)
= B – nD1 – 1 + A1 + D1 – D1(mod 65521)
= B – nD1 + A1 – 1(mod 65521)

score 4 · Accepted Answer

顺便说一句，您的 def rolling() 是正确的，至少对于模结果的符号具有除数符号的 Python 来说是正确的。它可能不适用于其他语言，例如在 C 语言中， % 结果的符号要么是被除数的符号，要么是实现定义的。

您可以通过考虑在每个步骤中与模 65521 相差多远来提高算法效率，或者用 if 和 65521 的加法或减法替换 %，或者使用足够大的数据类型让它运行一段时间并计算了解您很少能在总和上获得 % 以避免溢出。同样，要小心负股息的百分比。

score 1 · Accepted Answer

这是工作功能。请注意计算 MOD 的步骤。

def myadler32(data):
  a = 1
  b = 0
  for c in data:
      a += c
      b += a
  a %= MOD_ADLER
  b %= MOD_ADLER
  return b<<16 | a

score 0 · Accepted Answer

我相信您在测试中错误地计算了 adler32 值：

>>> import zlib
>>> zlib.adler32("helloworld")
389415997
>>> zlib.adler32("world",zlib.adler32("hello"))
389415997

python - adler32滚动校验和的计算差异 - python

5 回答 5

Related

Reference