c - SSE/AVX + OpenMP：数组的快速求和

Question

我将两个数组相加并输出第三个数组（不是减少）。像这样：

void add_scalar(float* result, const float* a, const float* b, const int N) {   
    for(int i = 0; i<N; i++) {
        result[i] = a[i] + b[i];
    }
}

我想以最大的吞吐量做到这一点。使用 SSE 和四个内核，我天真地期望加速 16 倍（SSE 四个，四个内核四个）。我已经用 SSE（和 AVX）实现了代码。Visual Studio 2012 具有自动矢量化功能，但我通过“展开循环”获得了更好的结果。我为具有四种大小的数组（32 字节对齐）运行我的代码：小于 32KB、小于 256KB、小于 8MB 和大于 8MB 的内核对应于 L1、L2、L3 缓存和主内存。对于 L1，我使用展开的 SSE 代码（使用 AVX 的 5-6）看到了大约 4 倍的加速。这和我预期的一样多。之后每个缓存级别的效率都会下降。然后我使用 OpenMP 在每个内核上运行。我在数组的主循环之前放置了“#pragma omp parallel for”。但是，我得到的最佳加速是 SSE + OpenMP 的 5-6 倍。有谁知道为什么我没有看到 16 倍的加速？也许是由于阵列从系统内存到缓存的一些“上传”时间？我意识到我应该对代码进行概要分析，但这本身就是我必须学习的另一种冒险。

#define ROUND_DOWN(x, s) ((x) & ~((s)-1))  
void add_vector(float* result, const float* a, const float* b, const int N) {
    __m128 a4;
    __m128 b4;
    __m128 sum;
    int i = 0;
    for(; i < ROUND_DOWN(N, 8); i+=8) {
        a4 = _mm_load_ps(a + i);
        b4 = _mm_load_ps(b + i);
        sum = _mm_add_ps(a4, b4);
        _mm_store_ps(result + i, sum);
        a4 = _mm_load_ps(a + i + 4);
        b4 = _mm_load_ps(b + i + 4);
        sum = _mm_add_ps(a4, b4);
        _mm_store_ps(result + i + 4, sum);
    }
    for(; i < N; i++) {
        result[i] = a[i] + b[i];
    }
    return 0;
}

我的错误主循环具有这样的竞争条件：

float *a = (float*)_aligned_malloc(N*sizeof(float), 32);
float *b = (float*)_aligned_malloc(N*sizeof(float), 32);
float *c = (float*)_aligned_malloc(N*sizeof(float), 32);
#pragma omp parallel for
for(int n=0; n<M; n++) {  //M is an integer of the number of times to run over the array
    add_vector(c, a, b, N);
}

我根据灰熊的建议更正了主循环：

for(int i=0; i<4; i++) {
    results[i] = (float*)_aligned_malloc(N*sizeof(float), 32);
}
#pragma omp parallel for num_threads(4)
for(int t=0; t<4; t++) {
    for(int n=0; n<M/4; n++) { //M is an integer of the number of times to run over the array
        add_vector(results[t], a, b, N);
    }
}

score 6 · Accepted Answer

免责声明：和你一样，我没有分析代码，所以我不能绝对肯定地回答。

您的问题很可能与内存带宽或并行化开销有关。

您的循环计算量非常轻，因为它为 3 次内存操作添加 1 次，使您自然受到内存带宽的限制（考虑到 ALU 吞吐量比现代架构中的内存带宽好得多）。因此，您的大部分时间都花在传输数据上。

如果数据足够小以适合缓存，您可以（理论上）将 openmp 线程绑定到特定内核并确保向量的正确部分位于特定内核的 L1/L2 缓存中，但这并没有真正的帮助，除非您可以并行化初始化（传输数据时并不重要，如果您必须这样做）。因此，将数据从一个核心缓存传输到另一个核心缓存会受到打击。

如果数据不适合处理器缓存，您最终会受到主内存带宽的限制。由于预取一个核心可能几乎可以最大限度地利用这种简单访问模式的带宽，给您的增长空间很小。

要记住的第二点是，创建omp parallel构造和分发循环有一定的开销。对于小型数据集（适合 L1/L2/L3 的数据集可能符合条件），此开销很容易与计算时间本身一样高，几乎没有加速。

c - SSE/AVX + OpenMP：数组的快速求和

1 回答 1

Related

Reference