2

使用 OpenMP 时,此代码速度较慢。如果没有 OpenMP,我会得到大约 10 秒。使用 OpenMP,我得到大约 40 秒。怎么了?非常感谢各位朋友!

for (i=2;i<(nnoib-2);++i){
    #pragma omp parallel for
    for (j=2; j<(nnojb-2); ++j) {
        C[i][j]= absi[i]*absj[j]*
                 (2.0f*B[i][j] + absi[i]*absj[j]*
                 (VEL[i][j]*VEL[i][j]*fat*
                 (16.0f*(B[i][j-1]+B[i][j+1]+B[i-1][j]+B[i+1][j])
                 -1.0f*(B[i][j-2]+B[i][j+2]+B[i-2][j]+B[i+2][j]) 
                 -60.0f*B[i][j]
                 )-A[i][j]));
        c2 = (abs(C[i][j]) > Amax[i][j]);
        if (c2) {
            Amax[i][j] = abs(C[i][j]);
            Ttra[i][j] = t;
        }
    }
}
4

2 回答 2

3

仅仅因为您使用的是 OpenMP 并不意味着您的程序会运行得更快。这里可能会发生几件事:

  1. 产生每个线程都会产生相关成本,如果产生一个线程来进行少量计算,那么线程本身的产生将比计算花费更多的时间。

  2. 默认情况下,OpenMP 将生成 CPU 支持的最大线程数。对于每个内核支持 2 个或更多线程的 CPU,线程将竞争每个内核的资源。使用omp_get_num_threads()你可以看到默认情况下会产生多少线程。我建议尝试使用omp_set_num_threads().

您是否确认使用和不使用 OpenMP 的结果相同?变量 j 和 c2 似乎存在依赖关系。您应该将它们声明为每个线程的私有:

#pragma omp parallel for private(j,c2)

我想补充一点:在尝试任何并行化之前,您应该确保代码已经优化。

根据您的编译器、编译器标志和指令的复杂性,编译器可能会也可能不会优化您的代码:

// avoid calculation nnoib-2 every iteration
int t_nnoib = nnoib - 2;
for (i=2; i< t_nnoib; ++i){
    // avoid calculation nnojb-2 every iteration
    int t_nnojb = nnojb - 2;
    // avoid loading absi[i] every iteration
    int t_absi = absi[i];
    for (j=2; j< t_nnojb; ++j) {
        C[i][j]= t_absi * absj[j] *
             (2.0f*B[i][j] + t_absi * absj[j] *
             (VEL[i][j] * VEL[i][j] * fat *
             (16.0f * (B[i][j-1] + B[i][j+1] + B[i-1][j] + B[i+1][j])
              -1.0f * (B[i][j-2] + B[i][j+2] + B[i-2][j] + B[i+2][j]) 
              -60.0f * B[i][j]
             ) - A[i][j]));

        // c2 is a useless variable
        if (abs(C[i][j]) > Amax[i][j]) {
            Amax[i][j] = abs(C[i][j]);
            Ttra[i][j] = t;
         }
    }
}

它可能看起来不多,但它会对您的代码产生巨大影响。编译器将尝试将局部变量放在寄存器中(访问时间要快得多)。请记住,您不能无限期地应用此技术,因为您的寄存器数量有限,滥用它会导致您的代码遭受寄存器溢出的影响。

在数组的情况下,您将避免让系统在循环absi执行期间将该数组的一部分保存在缓存中。j这种技术的总体思路是将任何不依赖于内循环变量的数组访问移至外循环。

于 2013-03-10T02:58:00.817 回答
2

除了 Cristiano 提到的成本之外,您选择在j循环上而不是在循环上进行并行化会带来在分配的三个数组中错误共享i的风险, . 本质上,当一个线程写入其中一个数组的元素时,同一高速缓存行上的连续元素也将被加载到该核心的高速缓存中。当另一个核心将自己的值写入不同的条目时,它将不得不从另一个缓存中拉出线路,多个核心可能会进行“拔河”。C, Amax, Ttra

对此的解决方案是并行化外循环i而不是内循环j。方便的是,这也大大降低了克里斯蒂亚诺回答中提到的成本,因为生成和工作分配只会发生一次,而不是i循环中的每次迭代。您仍然需要私有化jand ,或者只是在随后c2的中内联值并消除变量(如您的评论中所述)。为了提高效率,使用本地声明的变量而不是意味着不必访问线程私有变量。c2ifj

就像一个(相当重要的)检查一样,这个循环嵌套实际上是您测量的大部分时间的程序部分?添加 OpenMP 编译指示将其时间从 10 秒以下更改为 40 秒以下?

于 2013-03-10T07:40:53.553 回答