我正在尝试使用 nVidia CUDA 在 CTR 模式下实现 AES-256。我已经成功编写了用于密钥扩展的 CPU 代码,现在我需要实现实际的 AES-256 算法。根据维基百科,我见过的一些代码,特别是这个 PDF(第 9 页),AES 轮次可以实现为一系列表查找。我的问题是如何生成这些表?我知道我需要 4 KB 来存储这些表,这不是问题。我花了一整天的时间试图找到这些表,但没有成功。我发布的 PDF 链接提到了查找表 T0、T1、T2 和 T3,但我不知道这些是什么。它还提到了轮键 4、5、6 和 7,但我也不明白这些索引指的是什么。
我最接近弄清楚如何生成这些查找表的方法来自这个项目。在代码中,有一条注释说:
Te0[x] = S [x].[02, 01, 01, 03];
Te1[x] = S [x].[03, 02, 01, 01];
Te2[x] = S [x].[01, 03, 02, 01];
Te3[x] = S [x].[01, 01, 03, 02];
但是,我不完全确定我知道该符号的含义(是矩阵乘法还是其他什么?)。我唯一认识的是混合列部分常数矩阵,以及 S-box 矩阵。
[编辑] 现在有人指出了 - 查找实现实际上如何变慢?在这里没有查找表的情况下实现 AES 是否明智?