有两个障碍:
- 编写要在 GPU 上执行的程序。AFAIK,目前没有可用于将 Python 程序转换为 GPU 执行的代码的机制。所以除非你能找到你需要的东西(这可能是可能的,因为它看起来是一个相当常见的用例),那么你将不得不使用其中一种 GPU 编程语言(CUDA、OpenCL、Haskell、.. .)
从 Python 调用在 GPU 上运行的程序,并交换数据。有几个 Python+CUDA 项目可以做到这一点:
通过适当的搜索,您可能会找到更多。
Python GPU编程看起来也 很相关
然后,Python 程序将使用第 2 部分中的一种技术或等效技术加载并调用 GPU“内核”(使用本答案第 1 部分中的技术创建的程序)。
编辑您可能会生成整套“蛮力”值,以及 GPU 上的 md5 哈希值。然后只需使用 Python 检索结果。这可能比在 Python 中生成值、将它们传递给 GPU、然后取回 md5 更容易。
如果我理解了,程序会生成所有 1 个字符、2、3、4、5 和 6 个小写字母字符串,并生成 md5 哈希,是吗?
Edit2 - 我之前的分析完全错误 - 我很抱歉
Edit3:略读维基百科 MD5看起来可以优化为恒定长度字符串(例如 6 个 ASCII 字符)计算 MD5。
根据维基百科的伪代码,它只有 64 个循环,每组 16 个循环迭代使用相同的算法。因此,如果密钥小于 55 个字节,则计算的核心可以从以下位置“展开”:
for i from 0 to 63
if 0 ≤ i ≤ 15 then
f := (b and c) or ((not b) and d)
g := i
else if 16 ≤ i ≤ 31
f := (d and b) or ((not d) and c)
g := (5×i + 1) mod 16
else if 32 ≤ i ≤ 47
f := b xor c xor d
g := (3×i + 5) mod 16
else if 48 ≤ i ≤ 63
f := c xor (b or (not d))
g := (7×i) mod 16
temp := d
d := c
c := b
b := b + leftrotate((a + f + k[i] + w[g]) , r[i])
a := temp
end for
至:
// i == 0
f := (b and c) or ((not b) and d) // +4 ops
// g := i
temp := d
d := c
c := b
b := b + leftrotate((a + f + k[0] + w[0]) , r[0]) // 9 ops
a := temp
// i == 1
f := (b and c) or ((not b) and d)
// g := i
temp := d
d := c
c := b
b := b + leftrotate((a + f + k[1] + w[1]) , r[1])
a := temp
这种展开会导致一些数组索引是恒定的,这应该允许一个好的 GPU 编译器进行更恒定的传播。这可能会带来显着的改善。每一步大约是 9 次操作,编译器需要 shuffle 5 条数据,因此大约 14 操作/步 * 64 步,大约 1000 次操作。
编辑4:
格勒克!我已经阅读了更多 Wikipedia MD5 算法 - MD5 比我意识到的更容易攻击。只有每组16的前两个循环直接使用了6字节的可变key字符串,其余的字符串是常量。该算法的其余部分是改组和逐位操作,这可能会进行非常重要的进一步优化。每 16 个循环中只有 2 个涉及密钥,那么这可能快 8 倍,甚至可能超过 4 倍。
所以不是 1024 核心 GPU,运行在 1GHz,给出 1024 哈希/微秒,而是说 4096/微秒或 8096/us = 4-8 哈希/纳秒
大约有 27^6 个键 = 387,420,489 个键,因此有 md5 哈希。
387,420,489 键 / 4-8/纳秒大约 = 0.05 - 0.1 秒
主机和 GPU 之间的通信会很慢,但不太可能超过 100%。
所以大约在 0.1 秒到 0.2 秒之间。
一个 md5 散列是 16 个字节,因此如果要存储它会消耗 6.2 GB。在两个现代 GPU 上,每个只需要 2 次传输,但这将是一个非常显着的开销。如果散列值被保存到磁盘(即使使用 SSD),或者通过 10Gbit 以太网移动,散列生成会被 I/O 时间淹没。
只有 94 个可打印的 ASCII 字符,因此对于每个 ASCII 6 字符键:
94^6 = 689,869,781,056 键 / 4-8/纳秒 = 86-172 秒
天啊!-(
长键,比 MD5 更好的东西!
也许尝试编写一个 Python 程序来生成最佳 GPU 算法?
通过在 Python 程序中“展开”循环来生成 GPU“内核”的文本,并打印直线计算的文本,并填写所有常量。
然后尝试找出计算每个密钥长度的 MD5 的最佳指令序列是什么。使用展开的程序,尝试跟踪每个位的操作和依赖关系,然后尝试将位及其操作重新组合成连续的 32 位字和新的直线计算。(公平地说,也许 GPU 编译器无论如何都可以做到这一点?可能会很有趣)