c - 如何旋转 SSE/AVX 矢量

Question

我需要以尽可能少的时钟周期执行旋转操作。在第一种情况下，让我们假设__m128i源和目标类型：

来源：|| A0 || A1 || A2 || A3 ||

  目的地：|| A1 || A2 || A3 || A0 ||

dest = (__m128i)_mm_shuffle_epi32((__m128i)source, _MM_SHUFFLE(0,3,2,1));

现在我想对 AVX 内在函数做同样的事情。所以让我们假设这次__m256i是 source 和 dest 类型：

来源：|| A0 || A1 || A2 || A3 || A4 || A5 || A6 || A7 ||

  目的地：|| A1 || A2 || A3 || A4 || A5 || A6 || A7 || A0 ||

AVX 内在函数缺少大多数相应的 SSE 整数运算。也许有一些方法可以使用浮点版本获得所需的输出。

我试过：

dest = (__m256i)_mm256_shuffle_ps((__m256)source, (__m256)source, _MM_SHUFFLE(0,3,2,1));

但我得到的是：

|| A0 || A2 || A3 || A4 || A5 || A6 || A7 || A1 ||

关于如何以有效方式解决这个问题的任何想法？（没有混合 SSE 和 AVX 操作，也没有“手动”反转A0和A1

提前致谢！

score 16 · Accepted Answer

My solution:

__m256 tmp =  ( __m256 ) _mm256_permute_ps((__m256)_source, _MM_SHUFFLE ( 0,3,2,1 ));
* ( _dest ) =  ( __m256i) _mm256_blend_ps(tmp, _mm256_permute2f128_ps ( tmp,tmp,1 ), 136);

score 3 · Accepted Answer

我还没有检查过 AVX 的情况，但至少对于 SSE，你考虑过_mm_align*吗？

例如，这会将字节向量旋转 2 个字节：

__m128i v;
v = _mm_alignr_epi8 (v, v, 2) // v = v[2,3,4,5,6,7,8,9,10,11,12,13,14,15,0,1]

这可以是一条指令。此类操作也是 lat 1 / tp 1，即快速。

AVX 使用这种方法可能有点麻烦，因此调整可能没有用。

c - 如何旋转 SSE/AVX 矢量

2 回答 2

Related

Reference