我正在硬件(xilinx ZYNQ FPGA)中实现 RSA 1024,但无法找出一些奇怪的问题。最值得注意的是,我发现我的实现仅适用于某些基数/指数/模数组合,但没有找到任何原因。
注意:我正在使用 Xilinx HLS(本质上是合成到硬件中的 C 代码)来实现该算法。为了这篇文章,把它当作一个标准的 C 实现,除了我可以有高达 4096 位宽的变量。我还没有并行化它,所以它的行为应该就像标准 C 代码一样。
问题
我的问题是我能够得到某些模幂测试问题的正确答案,但前提是基数、指数和模数的值可以写成比实际的 1024 位操作数宽度少得多的位(即它们是零填充)。
当我使用从 SSH-keygen 生成的实际 1024 位值时,我不再得到正确的结果。
例如,如果我的输入参数是
uint1024_t base = 1570
uint1024_t exponent = 1019
uint1024_t modulus = 3337
我正确地得到了1570^1029 mod(3337) = 688的结果
但是,当我实际使用占据所有(或大约所有)1024 位的值作为输入时......
uint1024_t base = 0x00be5416af9696937b7234421f7256f78dba8001c80a5fdecdb4ed761f2b7f955946ec920399f23ce9627f66286239d3f20e7a46df185946c6c8482e227b9ce172dd518202381706ed0f91b53c5436f233dec27e8cb46c4478f0398d2c254021a7c21596b30f77e9886e2fd2a081cadd3faf83c86bfdd6e9daad12559f8d2747
uint1024_t exponent = 0x6f1e6ab386677cdc86a18f24f42073b328847724fbbd293eee9cdec29ac4dfe953a4256d7e6b9abee426db3b4ddc367a9fcf68ff168a7000d3a7fa8b9d9064ef4f271865045925660fab620fad0aeb58f946e33bdff6968f4c29ac62bd08cf53cb8be2116f2c339465a64fd02517f2bafca72c9f3ca5bbf96b24c1345eb936d1
uint1024_t modulus = 0xb4d92132b03210f62e52129ae31ef25e03c2dd734a7235efd36bad80c28885f3a9ee1ab626c30072bb3fd9906bf89a259ffd9d5fd75f87a30d75178b9579b257b5dca13ca7546866ad9f2db0072d59335fb128b7295412dd5c43df2c4f2d2f9c1d59d2bb444e6dac1d9cef27190a97aae7030c5c004c5aea3cf99afe89b86d6d
我错误地得到一个大数字,而不是 29 (0x1D) 的正确答案
我已经检查了这两种算法一百万次,并尝试了不同的初始值和循环边界,但似乎没有任何效果。
我的实现
我使用标准的平方和乘法进行模幂运算,我选择使用 Tenca-Koc radix-2 算法进行蒙哥马利乘法,在下面的伪代码中详细说明...
/* Tenca-Koc radix2 montgomery multiplication */
Z = 0
for i = 0 to n-1
Z = Z + X[i]*Y
if Z is odd then Z = Z + M
Z = Z/2 // left shift in radix2
if (S >= M) then S = S - M
我的蒙哥马利乘法实现如下:
void montMult(uint1024_t X, uint1024_t Y, uint1024_t M, uint1024_t* outData)
{
ap_uint<2*NUM_BITS> S = 0;
for (int i=0; i<NUM_BITS; i++)
{
// add product of X.get_bit(i) and Y to partial sum
S += X[i]*Y;
// if S is even, add modulus to partial sum
if (S.test(0))
S += M;
// rightshift 1 bit (divide by 2)
S = S >> 1;
}
// bring back to under 1024 bits by subtracting modulus
if (S >= M)
S -= M;
// write output data
*outData = S.range(NUM_BITS-1,0);
}
我的顶级模幂运算如下,其中(切换符号!)...
// k: number of bits
// r = 2^k (radix)
// M: base
// e: exponent
// n: modulus
// Mbar: (precomputed residue) M*r mod(n)
// xbar: (precomputed initial residue) 1*r mod(n)
void ModExp(uint1024_t M, uint1024_t e, uint1024_t n,
uint1024_t Mbar, uint1024_t xbar, uint1024_t* out)
{
for (int i=NUM_BITS-1; i>=0; i--)
{
// square
montMult(xbar,xbar,n,&xbar);
// multiply
if (e.test(i)) // if (e.bit(i) == 1)
montMult(Mbar,xbar,n,&xbar);
}
// undo montgomery residue transformation
montMult(xbar,1,n,out);
}
我一生都无法弄清楚为什么这适用于除了实际的 1024 位值之外的所有内容。任何帮助将非常感激