我想问一个关于 SIMD 的问题。我的 CPU 中没有AVX512
,但想要一个_mm256_max_epu64。
我们如何实现这个功能AVX2
呢?
在这里,我尝试拥有我的琐碎。也许我们可以让它成为一个讨论并改进它。
#define SIMD_INLINE inline __attribute__ ((always_inline))
SIMD_INLINE __m256i __my_mm256_max_epu64_(__m256i a, __m256i b) {
uint64_t *val_a = (uint64_t*) &a;
uint64_t *val_b = (uint64_t*) &b;
uint64_t e[4];
for (size_t i = 0; i < 4; ++i) e[i] = (*(val_a + i) > *(val_b + i)) ? *(val_a + i) : *(val_b + i);
return _mm256_set_epi64x(e[3], e[2], e[1], e[0]);
}
编辑作为摘要:
我们讨论了__mm256
无符号比较。我在上面给出了我的简单实现,只是遵循了非常基本的概念:single__m256i
相当于 4uint64_t
或 4 float
,它们也一起构成 256 位。
然后我们从@chtz 那里得到了答案,AVX
从AVX
.
最后事实证明,这两个实现导致了相同的程序集,这要归功于CLang
. 来自编译器资源管理器的汇编示例
另一个_mm256_min_epu64_
补充说。它只是反映_mm256_max_epu64_
上述情况。使其更容易被搜索以备将来使用。
SIMD_INLINE __m256i __my_mm256_min_epu64_(__m256i a, __m256i b) {
uint64_t *val_a = (uint64_t*) &a;
uint64_t *val_b = (uint64_t*) &b;
uint64_t e[4];
for (size_t i = 0; i < 4; ++i) e[i] = (*(val_a + i) < *(val_b + i)) ? *(val_a + i) : *(val_b + i);
return _mm256_set_epi64x(e[3], e[2], e[1], e[0]);
}