python - 是否可以使用 GPU 来加速 Python 中的散列？

Question

我最近阅读了 Jeff 的题为Speed Hashing的博客文章，其中除其他外，他提到您可以通过利用 GPU 的力量非常快速地对事物进行哈希处理。

我想知道是否可以利用 GPU 的力量在 Python（md5、sha-1 等）中对事物进行哈希处理？

我对此很感兴趣，因为我试图看看我能以多快的速度暴力破解事物（不是现实世界的东西，来自旧的泄露数据转储）。

目前，我正在做这种事情（简化示例）：

from itertools import product
from hashlib import md5

hashes = ["some","hashes"]

chars = []
for i in range(97,123): # a-z only
    chars.append(chr(i))

for i in range(1,6): # all combos of a-z, 1-5 chars
    for c in product(chars,repeat=i):
       s = ''.join(c)
       if md5(s).hexdigest() in hashes:
           print "Found",s

但我想知道是否有办法使用 GPU 来加快速度？我猜我需要一个可以像这样连续生成哈希的模块——有人知道吗？

score 26 · Accepted Answer

有两个障碍：

编写要在 GPU 上执行的程序。AFAIK，目前没有可用于将 Python 程序转换为 GPU 执行的代码的机制。所以除非你能找到你需要的东西（这可能是可能的，因为它看起来是一个相当常见的用例），那么你将不得不使用其中一种 GPU 编程语言（CUDA、OpenCL、Haskell、.. .)
从 Python 调用在 GPU 上运行的程序，并交换数据。有几个 Python+CUDA 项目可以做到这一点：
通过适当的搜索，您可能会找到更多。

Python GPU编程看起来也很相关

然后，Python 程序将使用第 2 部分中的一种技术或等效技术加载并调用 GPU“内核”（使用本答案第 1 部分中的技术创建的程序）。

编辑您可能会生成整套“蛮力”值，以及 GPU 上的 md5 哈希值。然后只需使用 Python 检索结果。这可能比在 Python 中生成值、将它们传递给 GPU、然后取回 md5 更容易。

如果我理解了，程序会生成所有 1 个字符、2、3、4、5 和 6 个小写字母字符串，并生成 md5 哈希，是吗？

Edit2 - 我之前的分析完全错误 - 我很抱歉

Edit3：略读维基百科 MD5看起来可以优化为恒定长度字符串（例如 6 个 ASCII 字符）计算 MD5。

根据维基百科的伪代码，它只有 64 个循环，每组 16 个循环迭代使用相同的算法。因此，如果密钥小于 55 个字节，则计算的核心可以从以下位置“展开”：

for i from 0 to 63
    if 0 ≤ i ≤ 15 then
        f := (b and c) or ((not b) and d)
        g := i
    else if 16 ≤ i ≤ 31
        f := (d and b) or ((not d) and c)
        g := (5×i + 1) mod 16
    else if 32 ≤ i ≤ 47
        f := b xor c xor d
        g := (3×i + 5) mod 16
    else if 48 ≤ i ≤ 63
        f := c xor (b or (not d))
        g := (7×i) mod 16
    temp := d
    d := c
    c := b
    b := b + leftrotate((a + f + k[i] + w[g]) , r[i])
    a := temp
end for

至：

// i == 0
f := (b and c) or ((not b) and d)   // +4 ops
// g := i
temp := d
d := c
c := b
b := b + leftrotate((a + f + k[0] + w[0]) , r[0])  // 9 ops
a := temp
// i == 1
f := (b and c) or ((not b) and d)
// g := i
temp := d
d := c
c := b
b := b + leftrotate((a + f + k[1] + w[1]) , r[1])
a := temp

这种展开会导致一些数组索引是恒定的，这应该允许一个好的 GPU 编译器进行更恒定的传播。这可能会带来显着的改善。每一步大约是 9 次操作，编译器需要 shuffle 5 条数据，因此大约 14 操作/步 * 64 步，大约 1000 次操作。

编辑4：
格勒克！我已经阅读了更多 Wikipedia MD5 算法 - MD5 比我意识到的更容易攻击。只有每组16的前两个循环直接使用了6字节的可变key字符串，其余的字符串是常量。该算法的其余部分是改组和逐位操作，这可能会进行非常重要的进一步优化。每 16 个循环中只有 2 个涉及密钥，那么这可能快 8 倍，甚至可能超过 4 倍。

所以不是 1024 核心 GPU，运行在 1GHz，给出 1024 哈希/微秒，而是说 4096/微秒或 8096/us = 4-8 哈希/纳秒

大约有 27^6 个键 = 387,420,489 个键，因此有 md5 哈希。

387,420,489 键 / 4-8/纳秒大约 = 0.05 - 0.1 秒

主机和 GPU 之间的通信会很慢，但不太可能超过 100%。

所以大约在 0.1 秒到 0.2 秒之间。

一个 md5 散列是 16 个字节，因此如果要存储它会消耗 6.2 GB。在两个现代 GPU 上，每个只需要 2 次传输，但这将是一个非常显着的开销。如果散列值被保存到磁盘（即使使用 SSD），或者通过 10Gbit 以太网移动，散列生成会被 I/O 时间淹没。

只有 94 个可打印的 ASCII 字符，因此对于每个 ASCII 6 字符键：

94^6 = 689,869,781,056 键 / 4-8/纳秒 = 86-172 秒

天啊！-（

长键，比 MD5 更好的东西！

也许尝试编写一个 Python 程序来生成最佳 GPU 算法？

通过在 Python 程序中“展开”循环来生成 GPU“内核”的文本，并打印直线计算的文本，并填写所有常量。

然后尝试找出计算每个密钥长度的 MD5 的最佳指令序列是什么。使用展开的程序，尝试跟踪每个位的操作和依赖关系，然后尝试将位及其操作重新组合成连续的 32 位字和新的直线计算。（公平地说，也许 GPU 编译器无论如何都可以做到这一点？可能会很有趣）

python - 是否可以使用 GPU 来加速 Python 中的散列？

1 回答 1

Related

Reference