0

我需要在 __m128i 变量的特定位置加载连续存储在数组中的 4 个字节,即能够一次进行 4 个 int32_t 求和,存储所有部分结果。

例如:

const unsigned int SIZE = 2000000;
const unsigned int STEP = 100;

unsigned char* inBuffer = new char[SIZE];
//Fill inBuffer
const unsigned char* a = inBuffer;

int32_t* outBuffer = new int32_t[SIZE/STEP*4];
int32_t* result = outBuffer;

__m128i sum = _mm_setzero_si128 ()
for (int i = 0; i < SIZE; i+=STEP) {
    __m128i value = _mm_set_epi32 (a[3],a[2],a[1],a[0]);
    sum = __mm_add_epi32(sum,value);
    _mm_storeu_si128 ((__m128i*)result,sum);
    a+=STEP;
    result+=4;
    }

//Print outBuffer

delete[] inBuffer;
delete[] outBuffer;

我想知道是否有更有效的方法来做到这一点

4

1 回答 1

0

这里的主要问题当然是这一行:

__m128i value = _mm_set_epi32 (a[3],a[2],a[1],a[0]);

然而,一个体面的编译器应该为此生成相当有效的代码。查看输出 ( gcc -O3 -S ...) - 如果它的指令不止几条,那么您可能需要考虑自己进行加载/解包操作。

于 2013-10-16T22:54:07.833 回答