c - 使用带有嵌套 for 循环和内在函数的 openmp 时遇到问题

Question

所以我在找出使用 openmp 并行化这些 for 循环的最佳方法时遇到了一些麻烦。我猜最大的加速将来自并行化中间循环，就像我在这里所做的那样：

for(i = 0; i < m/16*16; i+=16){
    #pragma omp parallel for
        for(j = 0; j < m; j++){

            C_column_start = C+i+j*m;

            c_1 = _mm_loadu_ps(C_column_start);
            c_2 = _mm_loadu_ps(C_column_start+4);
            c_3 = _mm_loadu_ps(C_column_start+8);
            c_4 = _mm_loadu_ps(C_column_start+12);

            for (k=0; k < n; k+=2){

                A_column_start = A+k*m;

                a_1 = _mm_loadu_ps(A_column_start+i);
                a_2 = _mm_loadu_ps(A_column_start+i+4);
                a_3 = _mm_loadu_ps(A_column_start+i+8);
                a_4 = _mm_loadu_ps(A_column_start+i+12);

                b_1 = _mm_load1_ps(A_column_start+j);

                mul_1 = _mm_mul_ps(a_1, b_1);
                mul_2 = _mm_mul_ps(a_2, b_1);
                mul_3 = _mm_mul_ps(a_3, b_1);
                mul_4 = _mm_mul_ps(a_4, b_1);

                c_4 = _mm_add_ps(c_4, mul_4);
                c_3 = _mm_add_ps(c_3, mul_3);
                c_2 = _mm_add_ps(c_2, mul_2);
                c_1 = _mm_add_ps(c_1, mul_1);

                A_column_start+=m;

                a_1 = _mm_loadu_ps(A_column_start+i);
                a_2 = _mm_loadu_ps(A_column_start+i+4);
                a_3 = _mm_loadu_ps(A_column_start+i+8);
                a_4 = _mm_loadu_ps(A_column_start+i+12);

                b_1 = _mm_load1_ps(A_column_start+j);

                mul_1 = _mm_mul_ps(a_1, b_1);
                mul_2 = _mm_mul_ps(a_2, b_1);
                mul_3 = _mm_mul_ps(a_3, b_1);
                mul_4 = _mm_mul_ps(a_4, b_1);

                c_4 = _mm_add_ps(c_4, mul_4);
                c_3 = _mm_add_ps(c_3, mul_3);
                c_2 = _mm_add_ps(c_2, mul_2);
                c_1 = _mm_add_ps(c_1, mul_1);

            }


            _mm_storeu_ps(C_column_start, c_1);
            _mm_storeu_ps(C_column_start+4, c_2);
            _mm_storeu_ps(C_column_start+8, c_3);
            _mm_storeu_ps(C_column_start+12, c_4);

        }

    }

但是，这目前几乎没有给我提速。任何提示都会很棒。我已经被困了很长一段时间了。

score 2 · Accepted Answer

首先，您确定循环是可并行的吗？值的范围是m多少？

当所有三个嵌套循环都可并行化并且m足够大（例如至少 16 个左右）时，并行化最外层循环将是最有益的。并行化内部循环可能会产生严重的分叉连接开销omp parallel for。

对于低加速，这里有一些清单：

你确定所有的核心都被利用了吗？检查一种任务管理器。由于除了的隐式屏障之外没有同步omp parallel for，因此应该使用所有核心。
是m一个巨大的数字吗？而且，计算长度是多少？如果m计算量大而计算量小，则由于并行开销omp parallel for可能会抵消并行化的好处。当您并行化内部循环时，行程计数（例如m）不应很大。
虚假分享可能是一个原因。如果您的代码修改了大量内存，则可能会导致错误共享，并且可能会损害加速。

c - 使用带有嵌套 for 循环和内在函数的 openmp 时遇到问题

1 回答 1

Related

Reference