c++ - SIMD：实现 _mm256_max_epu64_ 和 _mm256_min_epu64_

Question

我想问一个关于 SIMD 的问题。我的 CPU 中没有AVX512，但想要一个_mm256_max_epu64。

我们如何实现这个功能AVX2呢？

在这里，我尝试拥有我的琐碎。也许我们可以让它成为一个讨论并改进它。

#define SIMD_INLINE inline __attribute__ ((always_inline)) 

SIMD_INLINE __m256i __my_mm256_max_epu64_(__m256i a, __m256i b) {
  uint64_t *val_a = (uint64_t*) &a;
  uint64_t *val_b = (uint64_t*) &b;
  uint64_t e[4];
  for (size_t i = 0; i < 4; ++i) e[i] = (*(val_a + i) > *(val_b + i)) ? *(val_a + i) : *(val_b + i);
  return _mm256_set_epi64x(e[3], e[2], e[1], e[0]);
}

编辑作为摘要：

我们讨论了__mm256 无符号比较。我在上面给出了我的简单实现，只是遵循了非常基本的概念：single__m256i相当于 4uint64_t或 4 float，它们也一起构成 256 位。

然后我们从@chtz 那里得到了答案，AVX从AVX.

最后事实证明，这两个实现导致了相同的程序集，这要归功于CLang. 来自编译器资源管理器的汇编示例

另一个_mm256_min_epu64_补充说。它只是反映_mm256_max_epu64_上述情况。使其更容易被搜索以备将来使用。

SIMD_INLINE __m256i __my_mm256_min_epu64_(__m256i a, __m256i b) {
  uint64_t *val_a = (uint64_t*) &a;
  uint64_t *val_b = (uint64_t*) &b;
  uint64_t e[4];
  for (size_t i = 0; i < 4; ++i) e[i] = (*(val_a + i) < *(val_b + i)) ? *(val_a + i) : *(val_b + i);
  return _mm256_set_epi64x(e[3], e[2], e[1], e[0]);
}

score 5 · Accepted Answer

最简单的解决方案是_mm256_cmpgt_epi64与混合的组合。但是，如果您想要无符号最大值，则需要首先1<<63从每个元素中减去（在比较之前，而不是在混合之前）。没有_mm256_blendv_epu64说明，但可以使用，_mm256_blendv_epi8因为掩码将设置在相关元素的每一位。另请注意，减去最高位可以稍微快一点xor：

__m256i pmax_epu64(__m256i a, __m256i b)
{
    __m256i signbit = _mm256_set1_epi64x(0x8000'0000'0000'0000);
    __m256i mask = _mm256_cmpgt_epi64(_mm256_xor_si256(a,signbit),_mm256_xor_si256(b,signbit));
    return _mm256_blendv_epi8(b,a,mask);
}

实际上，clang 几乎设法从您的代码中获得相同的指令：https ://godbolt.org/z/afhdOa 它只使用vblendvpd而不是vpblendvb，这可能会引入延迟（有关详细信息，请参阅@PeterCordes 评论）。

通过一些位旋转，您实际上可以保存为符号位设置寄存器。如果两个操作数的符号匹配，则无符号比较给出相同的结果，如果它们不匹配，则给出相反的结果，即

unsigned_greater_than(signed a, signed b) == (a<0) ^ (b<0) ^ (a>b)

如果您使用_mm256_blendv_pdwith some casts 作为 a _mm256_blendv_epi64（因为现在只有最高位有效），则可以使用它：

__m256i _mm256_blendv_epi64(__m256i a, __m256i b, __m256i mask)
{
    return _mm256_castpd_si256(_mm256_blendv_pd(
        _mm256_castsi256_pd(a),_mm256_castsi256_pd(b),_mm256_castsi256_pd(mask)));
}

__m256i pmax_epu64_b(__m256i a, __m256i b)
{
    __m256i opposite_sign = _mm256_xor_si256(a,b);
    __m256i mask = _mm256_cmpgt_epi64(a,b);
    return _mm256_blendv_epi64(b,a,_mm256_xor_si256(mask, opposite_sign));
}

仅供参考，带符号的最大值当然只是：

__m256i pmax_epi64(__m256i a, __m256i b)
{
    __m256i mask = _mm256_cmpgt_epi64(a,b);
    return _mm256_blendv_epi8(b,a,mask);
}

c++ - SIMD：实现 _mm256_max_epu64_ 和 _mm256_min_epu64_

1 回答 1

Related

Reference