c - 如何使用 SIMD 加速两个内存块的异或？

Question

我想尽快对两块内存进行异或运算，如何使用 SIMD 来加速呢？

我的原始代码如下：

void region_xor_w64(   unsigned char *r1,         /* Region 1 */
                       unsigned char *r2,         /* Region 2 */
                       int nbytes)       /* Number of bytes in region */
{
    uint64_t *l1;
    uint64_t *l2;
    uint64_t *ltop;
    unsigned char *ctop;

    ctop = r1 + nbytes;
    ltop = (uint64_t *) ctop;
    l1 = (uint64_t *) r1;
    l2 = (uint64_t *) r2;

    while (l1 < ltop) {
        *l2 = ((*l1)  ^ (*l2));
        l1++;
        l2++;
    }
}

我自己写了一个，但速度几乎没有提高。

void region_xor_sse(   unsigned char* dst,
                       unsigned char* src,
                       int block_size){
  const __m128i* wrd_ptr = (__m128i*)src;
  const __m128i* wrd_end = (__m128i*)(src+block_size);
  __m128i* dst_ptr = (__m128i*)dst;

  do{
    __m128i xmm1 = _mm_load_si128(wrd_ptr);
    __m128i xmm2 = _mm_load_si128(dst_ptr);

    xmm2 = _mm_xor_si128(xmm1, xmm2);
    _mm_store_si128(dst_ptr, xmm2);
    ++dst_ptr;
    ++wrd_ptr;
  }while(wrd_ptr < wrd_end);
}

score 11 · Accepted Answer

更重要的问题是您为什么要手动执行此操作。你有一个古老的编译器，你认为你可以超越它吗？那些不得不手动编写 SIMD 指令的美好时光已经结束。今天，在 99% 的情况下，编译器会为你完成这项工作，而且很有可能它会做得更好。此外，不要忘记每隔一段时间就会出现新的架构，并带有越来越多的扩展指令集。所以问自己一个问题——你想为每个平台维护 N 个实现的副本吗？您想不断测试您的实现以确保它值得维护吗？答案很可能是否定的。

您唯一需要做的就是编写尽可能简单的代码。编译器将完成其余的工作。例如，这是我编写函数的方式：

void region_xor_w64(unsigned char *r1, unsigned char *r2, unsigned int len)
{
    unsigned int i;
    for (i = 0; i < len; ++i)
        r2[i] = r1[i] ^ r2[i];
}

简单一点，不是吗？MOVDQU猜猜看，编译器正在生成使用and执行 128 位 XOR 的代码，PXOR关键路径如下所示：

4008a0:       f3 0f 6f 04 06          movdqu xmm0,XMMWORD PTR [rsi+rax*1]
4008a5:       41 83 c0 01             add    r8d,0x1
4008a9:       f3 0f 6f 0c 07          movdqu xmm1,XMMWORD PTR [rdi+rax*1]
4008ae:       66 0f ef c1             pxor   xmm0,xmm1
4008b2:       f3 0f 7f 04 06          movdqu XMMWORD PTR [rsi+rax*1],xmm0
4008b7:       48 83 c0 10             add    rax,0x10
4008bb:       45 39 c1                cmp    r9d,r8d
4008be:       77 e0                   ja     4008a0 <region_xor_w64+0x40>

正如@Mysticial 所指出的，上面的代码使用了支持非对齐访问的指令。那些比较慢。但是，如果程序员可以正确地假设对齐访问，那么就有可能让编译器知道它。例如：

void region_xor_w64(unsigned char * restrict r1,
                    unsigned char * restrict r2,
                    unsigned int len)
{
    unsigned char * restrict p1 = __builtin_assume_aligned(r1, 16);
    unsigned char * restrict p2 = __builtin_assume_aligned(r2, 16);

    unsigned int i;
    for (i = 0; i < len; ++i)
        p2[i] = p1[i] ^ p2[i];
}

编译器为上述 C 代码生成以下内容（注意movdqa）：

400880:       66 0f 6f 04 06          movdqa xmm0,XMMWORD PTR [rsi+rax*1]
400885:       41 83 c0 01             add    r8d,0x1
400889:       66 0f ef 04 07          pxor   xmm0,XMMWORD PTR [rdi+rax*1]
40088e:       66 0f 7f 04 06          movdqa XMMWORD PTR [rsi+rax*1],xmm0
400893:       48 83 c0 10             add    rax,0x10
400897:       45 39 c1                cmp    r9d,r8d
40089a:       77 e4                   ja     400880 <region_xor_w64+0x20>

明天，当我给自己买一台配备 Haswell CPU 的笔记本电脑时，编译器将为我生成一个使用 256 位指令而不是 128 位指令的代码，这给了我两倍的向量性能。即使我不知道 Haswell 有能力，它也会这样做。您不仅需要了解该功能，还需要编写另一个版本的代码并花一些时间对其进行测试。

顺便说一句，您的实现中似乎还有一个错误，代码可以跳过数据向量中最多 3 个剩余字节。

无论如何，我建议您相信您的编译器并学习如何验证生成的内容（即熟悉objdump. 下一个选择是更改编译器。然后才开始考虑手动编写向量处理指令。否则你会过得很糟糕！

希望能帮助到你。祝你好运！

score 0 · Accepted Answer

由于区域的大小是按值传递的，为什么代码不是：

void region_xor_w64(unsigned char *r1, unsigned char *r2, unsigned int i)
{
    while (i--)
        r2[i] = r1[i] ^ r2[i];
}

甚至：

void region_xor_w64(unsigned char *r1, unsigned char *r2, unsigned int i)
{
    while (i--)
        r2[i] ^= r1[i];
}

如果偏好向前（“向上内存”）和使用指针，那么：

void region_xor_w64(unsigned char *r1, unsigned char *r2, unsigned int i)
{
    while (i--)
        *r2++ ^= *r1++;
}

c - 如何使用 SIMD 加速两个内存块的异或？

2 回答 2

Related

Reference