我将两个数组相加并输出第三个数组(不是减少)。像这样:
void add_scalar(float* result, const float* a, const float* b, const int N) {
for(int i = 0; i<N; i++) {
result[i] = a[i] + b[i];
}
}
我想以最大的吞吐量做到这一点。使用 SSE 和四个内核,我天真地期望加速 16 倍(SSE 四个,四个内核四个)。我已经用 SSE(和 AVX)实现了代码。Visual Studio 2012 具有自动矢量化功能,但我通过“展开循环”获得了更好的结果。我为具有四种大小的数组(32 字节对齐)运行我的代码:小于 32KB、小于 256KB、小于 8MB 和大于 8MB 的内核对应于 L1、L2、L3 缓存和主内存。对于 L1,我使用展开的 SSE 代码(使用 AVX 的 5-6)看到了大约 4 倍的加速。这和我预期的一样多。之后每个缓存级别的效率都会下降。然后我使用 OpenMP 在每个内核上运行。我在数组的主循环之前放置了“#pragma omp parallel for”。但是,我得到的最佳加速是 SSE + OpenMP 的 5-6 倍。有谁知道为什么我没有看到 16 倍的加速?也许是由于阵列从系统内存到缓存的一些“上传”时间?我意识到我应该对代码进行概要分析,但这本身就是我必须学习的另一种冒险。
#define ROUND_DOWN(x, s) ((x) & ~((s)-1))
void add_vector(float* result, const float* a, const float* b, const int N) {
__m128 a4;
__m128 b4;
__m128 sum;
int i = 0;
for(; i < ROUND_DOWN(N, 8); i+=8) {
a4 = _mm_load_ps(a + i);
b4 = _mm_load_ps(b + i);
sum = _mm_add_ps(a4, b4);
_mm_store_ps(result + i, sum);
a4 = _mm_load_ps(a + i + 4);
b4 = _mm_load_ps(b + i + 4);
sum = _mm_add_ps(a4, b4);
_mm_store_ps(result + i + 4, sum);
}
for(; i < N; i++) {
result[i] = a[i] + b[i];
}
return 0;
}
我的错误主循环具有这样的竞争条件:
float *a = (float*)_aligned_malloc(N*sizeof(float), 32);
float *b = (float*)_aligned_malloc(N*sizeof(float), 32);
float *c = (float*)_aligned_malloc(N*sizeof(float), 32);
#pragma omp parallel for
for(int n=0; n<M; n++) { //M is an integer of the number of times to run over the array
add_vector(c, a, b, N);
}
我根据灰熊的建议更正了主循环:
for(int i=0; i<4; i++) {
results[i] = (float*)_aligned_malloc(N*sizeof(float), 32);
}
#pragma omp parallel for num_threads(4)
for(int t=0; t<4; t++) {
for(int n=0; n<M/4; n++) { //M is an integer of the number of times to run over the array
add_vector(results[t], a, b, N);
}
}