13

我有这样的课:

//Array of Structures
class Unit
{
  public:
    float v;
    float u;
    //And similarly many other variables of float type, upto 10-12 of them.
    void update()
    {
       v+=u;
       v=v*i*t;
       //And many other equations
    }
};

我创建了一个 Unit 类型的对象数组。并调用他们的更新。

int NUM_UNITS = 10000;
void ProcessUpdate()
{
  Unit *units = new Unit[NUM_UNITS];
  for(int i = 0; i < NUM_UNITS; i++)
  {
    units[i].update();
  }
}

为了加快速度,并可能自动矢量化循环,我将 AoS 转换为数组结构。

//Structure of Arrays:
class Unit
{
  public:
  Unit(int NUM_UNITS)
  {
    v = new float[NUM_UNITS];
  }
  float *v;
  float *u;
  //Mnay other variables
  void update()
  {
    for(int i = 0; i < NUM_UNITS; i++)
    {
      v[i]+=u[i];
      //Many other equations
    }
  }
};

当循环无法自动矢量化时,数组结构的性能非常差。对于 50 个单元,SoA 的更新比 AoS 稍快。但是从 100 个单元开始,SoA 比 AoS 慢。在 300 个单位时,SoA 几乎差一倍。在 100K 单位时,SoA 比 AoS 慢 4 倍。虽然缓存可能是 SoA 的一个问题,但我没想到性能差异会如此之大。对 cachegrind 的分析显示两种方法的未命中次数相似。Unit 对象的大小为 48 字节。L1 缓存为 256K,L2 为 1MB,L3 为 8MB。我在这里想念什么?这真的是缓存问题吗?

编辑: 我正在使用 gcc 4.5.2。编译器选项是 -o3 -msse4 -ftree-vectorize。

我在 SoA 中做了另一个实验。我没有动态分配数组,而是在编译时分配了“v”和“u”。当有 100K 个单元时,这提供了比具有动态分配阵列的 SoA 快 10 倍的性能。这里发生了什么事?为什么静态分配的内存和动态分配的内存之间会有如此大的性能差异?

4

4 回答 4

10

在这种情况下,数组的结构对缓存不友好。

您同时使用两者uv但如果它们有 2 个不同的阵列,它们将不会同时加载到一个缓存行中,并且缓存未命中将导致巨大的性能损失。

_mm_prefetch可用于使AoS表示更快。

于 2012-07-23T16:56:59.060 回答
1

对于大部分执行时间都在等待数据出现的代码来说,预取至关重要。现代前端总线具有足够的带宽,可以安全地进行预取,前提是您的程序不会超过其当前的负载集。

由于各种原因,结构和类可能会在 C++ 中产生许多性能问题,并且可能需要进行更多调整才能获得可接受的性能水平。当代码很大时,使用面向对象的编程。当数据很大(并且性能很重要)时,不要这样做。

float v[N];
float u[N];
    //And similarly many other variables of float type, up to 10-12 of them.
//Either using an inlined function or just adding this text in main()
       v[j] += u[j];
       v[j] = v[j] * i[j] * t[j];
于 2013-11-02T18:23:48.360 回答
1

根据您的 CPU,您应该注意两件事可能会产生巨大的影响:

  1. 结盟
  2. 缓存行别名

由于您使用的是 SSE4,因此使用专门的内存分配函数返回在 16 字节边界对齐的地址而不是new可能会给您带来提升,因为您或编译器将能够使用对齐的加载和存储。我没有注意到较新的 CPU 有很大的不同,但是在较旧的 CPU 上使用未对齐的加载和存储可能会慢一些。

至于高速缓存行别名,英特尔在其参考手册中明确提及(搜索“英特尔® 64 和 IA-32 架构优化参考手册”)。英特尔表示您应该注意这一点,特别是在使用 SoA 时。因此,您可以尝试的一件事是填充您的数组,使其地址的低 6 位不同。这个想法是避免让它们争夺相同的缓存行。

于 2018-07-09T10:09:16.953 回答
0

当然,如果你没有实现矢量化,那么进行 SoA 转换的动力就没有多大了。

除了 __RESTRICT 在事实上被广泛接受之外,gcc 4.9 还采用#pragma GCC ivdep了打破假定的别名依赖关系。

至于显式预取的使用,如果它有用的话,当然你可能需要更多的SoA。主要的一点可能是通过提前获取页面来加速 DTLB 未命中解决,因此您的算法可能会变得更加需要缓存。

如果没有更多细节,包括关于你的操作系统的细节,我认为不能对你所谓的“编译时间”分配做出明智的评论。毫无疑问,高层次分配和重用分配的传统很重要。

于 2014-02-08T11:49:03.130 回答