c - OpenMP 虚假共享和缓存命中利用

Question

在我的代码中，有几种方法包含用于在 ny*nx 矩阵中移动的嵌套循环。我想并行化这个过程，所以我在每种方法上都使用了类似的东西：

#pragma omp parallel for private(jj,x_e,x_w,y_n,y_s)
  for(ii=0;ii<ny;ii++) {
    for(jj=0;jj<nx;jj++) {
      /* determine indices of axis-direction neighbours
      ** respecting periodic boundary conditions (wrap around) */
      y_n = (ii + 1) % ny;
      x_e = (jj + 1) % nx;
      y_s = (ii == 0) ? (ii + ny - 1) : (ii - 1);
      x_w = (jj == 0) ? (jj + nx - 1) : (jj - 1);
      //propagate densities to neighbouring cells, following
      tmp[ii *nx + jj].speeds[0]  = cells[ii*nx + jj].speeds[0]; /* central cell, */
                                                                                     /* no movement   */
      tmp[ii *nx + x_e].s[1] = cells[ii*nx + jj].s[1]; /* east */
      tmp[y_n*nx + jj].s[2]  = cells[ii*nx + jj].s[2]; /* north */
      tmp[ii *nx + x_w].s[3] = cells[ii*nx + jj].s[3]; /* west */
      tmp[y_s*nx + jj].s[4]  = cells[ii*nx + jj].s[4]; /* south */
      tmp[y_n*nx + x_e].s[5] = cells[ii*nx + jj].s[5]; /* north-east */
      tmp[y_n*nx + x_w].s[6] = cells[ii*nx + jj].s[6]; /* north-west */
      tmp[y_s*nx + x_w].s[7] = cells[ii*nx + jj].s[7]; /* south-west */      
      tmp[y_s*nx + x_e].s[8] = cells[ii*nx + jj].s[8]; /* south-east */      
    }
  }

然而，这段代码（以及其他代码）非常慢。有什么方法可以纠正我的#pragma 语句并重写数据结构或循环以使其缓存友好并避免错误共享？

PS：代码是用编译的，-O3所以每次小的优化尝试都没有达到任何加速。

score 0 · Accepted Answer

错误共享发生在共享高速缓存行被修改时，即被写入。鉴于此，您可以通过简单地反转操作来大大改善代码的内存访问模式的局部性：而不是对的每个元素执行分散操作，而是对的每个元素cells执行聚集操作tmp：

tmp[ii*nx + jj].s[0] = cells[ii*nx + jj].s[0];
tmp[ii*nx + jj].s[1] = cells[...].s[1];
...
tmp[ii*nx + jj].s[8] = cells[...].s[8];

这样，您将线性化每个线程的内存写入模式，使其对缓存更加友好，同时减少错误共享。

另请注意，您的代码性能主要受内存带宽的限制，因此对于大型阵列，您可能无法通过多个线程获得任何加速，除非这样做提供更多的内存带宽，例如，您有一个多插槽系统，每个插槽都有其自己的内存控制器，每个线程在不同套接字的核心上执行。您nx的 200 和ny300 测试已经需要至少 8,2 MiB 的内存，并且几乎不适合大多数桌面处理器的最后一级缓存，但仍然适合大多数服务器级 CPU 的缓存。更大的 2000 x 3000 机箱肯定会受到内存限制。

score 0 · Accepted Answer

设置线程并将工作分配给它们会引入一些开销。由于你的工作量很小（200x300），而且工作很简单（只有一些数据副本），线程开销可能比你的实际工作还要大，这就是你没有得到性能提升的原因之一。

另一个原因是由于使用了结构数组 (AoS)，您的代码缓存本地化很差。尤其是当你写信给tmp. 为了获得更好的缓存命中性能，您可以考虑使用数组结构 (SoA)。实际上，您只需要从

cells[nx*ny][9]

至

cells[9][nx*ny]

然后你会发现部分副本可以memcpy()直接完成。

另一方面，我认为您的代码没有严重的错误共享问题。

c - OpenMP 虚假共享和缓存命中利用

2 回答 2

Related

Reference