我正在和一个朋友一起做一个项目,我们需要生成一个随机散列。在我们有时间讨论之前,我们都提出了不同的方法,并且因为他们使用不同的模块,所以我想问大家什么会更好——如果有这样的事情。
hashlib.sha1(str(random.random())).hexdigest()
或者
os.urandom(16).encode('hex')
输入这个问题让我觉得第二种方法更好。简单胜于复杂。如果您同意,这对于“随机”生成哈希有多可靠?我将如何测试这个?
random.random()
是一个伪 radmom 生成器,这意味着数字是从一个序列中生成的。如果您调用random.seed(some_number)
,那么之后生成的序列将始终相同。
os.urandom()
从操作系统的 rng 中获取随机数,它使用熵池来收集真正的随机数,通常是通过来自硬件设备的随机事件,甚至存在用于生成大量随机数的系统的随机特殊熵生成器。
在 unix 系统上,传统上有两个随机数生成器:/dev/random
和/dev/urandom
. 如果没有足够的熵可用,则调用第一个块,而当您读取/dev/urandom
并且没有足够的熵数据可用时,它使用伪 rng 并且不会阻塞。
所以使用通常取决于你需要什么:如果你需要一些均匀分布的随机数,那么内置的 prng 应该就足够了。对于加密使用,使用实数随机数总是更好。
第二种解决方案显然比第一种解决方案具有更多的熵。假设随机比特源的质量对于os.urandom
和是相同的random.random
:
更重要的是,来自 的随机性的质量os.urandom
被预期和记录为比来自 的随机性好得多random.random
。os.urandom
的文档字符串说“适合加密使用”。
测试随机性是出了名的困难 - 但是,我会选择第二种方法,但仅在这种情况下(或者,仅就我想到的而言),其中哈希是由随机数播种的。
哈希的全部意义在于创建一个基于输入的细微差异而大不相同的数字。对于您的用例,输入的随机性应该可以。但是,如果您想对文件进行哈希处理并检测一个 eensy 字节的差异,那就是哈希算法大放异彩的时候。
不过,我只是好奇:为什么要使用哈希算法?似乎您正在寻找一个纯粹的随机数,并且有很多生成 uuid 的库,它们比随机数生成器具有更强的唯一性保证。