6

第一个值:

我有一个二进制值,它实际上是一系列紧凑的 2 位值。(即二进制值中的每2位代表0、1、2或3。)因此,例如,0、3、1、2变为00110110。在这个二进制字符串中,我只关心3的(或者,我可以翻转位,只关心 0,如果这让你的答案更容易)。所有其他数字都无关紧要(原因我们稍后会谈到)。

第二个值:

我有第二个二进制值,它也是以相同方式表示的一系列压缩的 2 位值。它与第一个值具有相同的长度。

数学:

我想要第二个值中与第一个值中的 3 具有相同位置的 2 位数字的总和。换句话说,如果我有:

First:  11000011
Second: 01111101

然后我的答案将是“2”(我将“第二”中的第一个数字和最后一个数字加在一起,因为它们是唯一在第一个值中具有“11”的数字与它们匹配。)

我想在尽可能少的时钟周期内完成此操作(在 GPU 或 x86 架构上)。但是,我通常在寻找一种算法,而不是一种汇编解决方案。有没有比从每个数字一次屏蔽两个位并运行多个循环更快的方法?

4

1 回答 1

11

当然。

 // the two numbers
 unsigned int a;
 unsigned int b;

现在从 a 中创建一个掩码,该掩码在奇数位置包含“1”位,仅当在 a 中有“11”结束于同一位置时。

 unsigned int mask = a & (a >> 1) & 0x55555555;

展开它以恢复“11”模式:

 mask = mask | (mask << 1);

所以现在如果 a 是 1101100011,掩码是 1100000011。

然后用掩码掩码 b:

 b = b & mask;

然后,您可以从 b 并行执行(屏蔽)数字的加法:

 b = (b & 0x33333333) + ((b & 0xcccccccc) >> 2);
 b = (b & 0x0f0f0f0f) + ((b & 0xf0f0f0f0) >> 4);
 b = (b & 0x00ff00ff) + ((b & 0xff00ff00) >> 8);
 b = (b & 0x0000ffff) + ((b & 0xffff0000) >> 16);

对于 32 位数字,和现在位于 b 的最低位。这是用于并行添加位字段的众所周知的模式。对于大于 32 位的数字,您会为 64 位数字添加一轮,为 128 位数字添加两轮。

于 2012-05-12T09:34:17.783 回答