python - 使用不同版本的 sha 散列（hashlib 模块）是否存在重大开销

Question

Python 模块提供以下hashlib哈希算法构造函数：md5()、sha1()、sha224()、sha256()、sha384()和sha512()。

假设我不想使用 md5，那么使用 sha1 而不是 sha512 有很大的不同吗？我想使用类似的东西hashlib.shaXXX(hashString).hexdigest()，但由于它只是用于缓存，我不确定我是否需要 512 的（最终）额外开销......

这种开销是否存在，如果存在，它有多大？

score 21 · Accepted Answer

为什么不只是对它进行基准测试？

>>> def sha1(s):
...     return hashlib.sha1(s).hexdigest()
...
>>> def sha512(s):
...     return hashlib.sha512(s).hexdigest()
...
>>> t1 = timeit.Timer("sha1('asdf' * 100)", "from __main__ import sha1")
>>> t512 = timeit.Timer("sha512('asdf' * 100)", "from __main__ import sha512")
>>> t1.timeit()
3.2463729381561279
>>> t512.timeit()
6.5079669952392578

所以在我的机器上，hash512速度是sha1. 但正如GregS所说，为什么要使用安全哈希进行缓存？尝试应该非常快速和调整的内置哈希算法：

>>> s = "asdf"
>>> hash(s)
-618826466
>>> s = "xxx"
>>> hash(s)
943435
>>> hash("xxx")
943435

或者更好的是，使用内置的 Python 字典。也许您可以告诉我们更多关于您计划缓存的信息。

编辑： 我认为您正在尝试实现以下目标：

hash = hashlib.sha1(object_to_cache_as_string).hexdigest()
cache[hash] = object_to_cache

我通过“使用内置的 Python 字典”所指的是您可以简化上述内容：

cache[object_to_cache_as_string] = object_to_cache

通过这种方式，Python 会处理散列，因此您不必这样做！

关于您的特定问题，您可以参考Python hashable dicts以使字典可散列。然后，缓存对象所需要做的就是：

cache[object_to_cache] = object_to_cache

编辑 - 关于 Python3 的注释

Python 3.3 引入了散列随机化，这意味着计算的散列在不同的进程中可能不同，因此您不应依赖计算的散列，除非将PYTHONHASHSEED环境变量设置为 0。

参考资料： - https://docs.python.org/3/reference/datamodel.html#object。哈希 - https://docs.python.org/3/using/cmdline.html#envvar-PYTHONHASHSEED

score 5 · Accepted Answer

也许是一个天真的测试......但它看起来取决于你有多少散列。2块sha512比4块sha256快？

>>> import timeit
>>> import hashlib
>>> for sha in [ x for x in dir(hashlib) if x.startswith('sha') ]:
...   t = timeit.Timer("hashlib.%s(data).hexdigest()" % sha,"import hashlib; data=open('/dev/urandom','r').read(1024)")
...   print sha + "\t" + repr(t.timeit(1000))
...
sha1    0.0084478855133056641
sha224  0.034898042678833008
sha256  0.034902095794677734
sha384  0.01980900764465332
sha512  0.019846916198730469

python - 使用不同版本的 sha 散列（hashlib 模块）是否存在重大开销

2 回答 2

Related

Reference