c++ - 使用placement new 代码运行速度更快

Question

我上了这门课

方法一：

typedef float v4sf __attribute__ (vector_size(16))

class Unit
{
    public:
    Unit(int num)
    {
        u = new float[num];
        v = new float[num];
    }
    void update()
    {
        for(int i =0 ; i < num; i+=4)
        {
            *(v4sf*)&u[i] = *(v4sf*)&v[i] + *(v4sf*)&t[i];
            //many other equations
        }
    }
    float*u,*v,*t; //and many other variables
}

方法二：

与方法 1 相同。除了在方法 2 中v，u, 和所有其他变量都分配在一个预先分配在堆上的大块上，使用 placement new。

typedef float v4sf __attribute__ (vector_size(16))

class Unit
{
    public:
    Unit(int num)
    {
        buffer = new char[num*sizeof(*u) + sizeof(*v)  /*..and so on for other variables..*/]
        u = new(buffer) float[num];
        v = new(buffer+sizeof(float)*num) float[num];
        //And so on for other variables
    }
    void update()
    {
        for(int i =0 ; i < num; i+=4)
        {
            *(v4sf*)&u[i] = *(v4sf*)&v[i] + *(v4sf*)&t[i];
            //many other equations
        }
    }
    char* buffer;
    float*u,*v,*t; //and many other variables
}

但是，方法 2 快 2 倍。这是为什么？

大约有 12 个浮点变量，num 为 500K。update() 被称为1k次。速度不考虑内存分配。我这样测量速度：

double start = getTime();
for( int i = 0; i < 1000; i++)
{
   unit->update();
}
double end = getTime();
cout<<end - start;

这在方法 2 中快了大约 2 倍。

编译器选项：gcc -msse4 -o3 -ftree-vectorize.

L1 缓存为 256K，Ram 为 8GB，页面大小为 4K。

编辑：更正了方法 2 中分配变量的错误。所有变量都正确分配在不同的部分。处理器是 Intel(R) Core(TM) i7-2600 CPU @ 3.40GHz

编辑：在此处添加源 - Source。方法 1) 给出 69.58s，方法 2) 给出 46.74s。虽然不是快 2 倍，但它仍然很快。

score 4 · Accepted Answer

可能是因为“方法 2”有一个错误——所有变量u, v,t都位于内存中完全相同的位置（您将相同的地址传递给新的位置）。

编辑：现在你不... ;)

没有分析很难猜测，但它可能与默认分配器有关。如果在第一种方法中，您对每个变量都有单独的 new 调用，则不能保证这些变量将分配到彼此接近的地址。另一方面，在第二种方法中，您要确保它们彼此尽可能接近。这将最大化缓存利用率并限制缓存未命中。

score 1 · Accepted Answer

分解时间并查看构造函数中的部分与update.

由于update没有改变，唯一会影响它的时间的是缓存对数据的影响。这足以解释 2 倍的差异。

score 0 · Accepted Answer

正常新建实际上是分配+构建，而放置新只是构建。
所以很自然，分配+2构造比分配+构造+分配+构造要快。
此外，整数类型的构造是 nop ，因此在您的情况下，它是 2 个分配与 1 个分配。

score 0 · Accepted Answer

我假设在方法 2 中，编译器能够识别出 u 和 v 的地址在调用之间不会改变，因此将 for 循环中等式中使用的一些指针保留在寄存器中。

c++ - 使用placement new 代码运行速度更快

4 回答 4

Related

Reference