c++ - 这段代码的瓶颈在哪里？

Question

我有以下紧密循环构成了我的代码的串行瓶颈。理想情况下，我会并行化调用它的函数，但这是不可能的。

//n is about 60
for (int k = 0;k < n;k++) 
{
    double fone = z[k*n+i+1];
    double fzer = z[k*n+i];
    z[k*n+i+1]= s*fzer+c*fone;
    z[k*n+i] = c*fzer-s*fone;
}

是否可以进行任何优化，例如矢量化或一些可以帮助此代码的邪恶内联？

我正在寻找三对角矩阵的特征解。http://www.cimat.mx/~posada/OptDoglegGraph/DocLogisticDogleg/projects/adjustedrecipes/tqli.cpp.html

score 8 · Accepted Answer

简短回答：将矩阵的内存布局从行优先顺序更改为列优先顺序。

长答案：您似乎正在访问以行优先顺序存储的矩阵的第 (i) 和 (i+1) 列 - 可能是一个整体上不适合 CPU 缓存的大矩阵。基本上，在每次循环迭代中，CPU 都必须等待 RAM（大约一百个周期）。在几次迭代之后，理论上，地址预测应该启动，并且 CPU 应该在循环访问数据项之前推测性地加载数据项。这应该有助于 RAM 延迟。但这仍然存在代码使用内存总线效率低下的问题：CPU 和内存从不交换单个字节，只交换高速缓存行（当前处理器上为 64 字节）。在加载和存储的每 64 字节缓存行中，您的代码仅涉及 16 字节（或四分之一）。

转置矩阵并以本机主要顺序访问它将使内存总线利用率增加四倍。由于这可能是您的代码的瓶颈，因此您可以预期大约相同顺序的加速。

是否值得，取决于算法的其余部分。由于内存布局的改变，其他部分当然可能会受到影响。

score 1 · Accepted Answer

我认为您正在旋转某些东西（或者更确切地说，很多东西，以相同的角度（s 是罪，c 是 cos））？

倒数总是很有趣，并且每次迭代都会减少变量比较，并且应该在这里工作。使计数器成为索引也可以节省一些时间（如其他人所说，减少了一些算术）。

for (int k = (n-1) * n + i; k >= 0; k -= n)
{
    double fone=z[k+1];
    double fzer=z[k];
    z[k+1]=s*fzer+c*fone;
    z[k]  =c*fzer-s*fone;
}

这里没有什么戏剧性的，但如果没有别的，它看起来更整洁。

score 1 · Accepted Answer

作为第一步，我会在这个循环中缓存指针：

//n is about 60
double *cur_z = &z[0*n+i]
for (int k = 0;k < n;k++) 
{
    double fone = *(cur_z+1);
    double fzer = *cur_z;
    *(cur_z+1)= s*fzer+c*fone;
    *cur_z = c*fzer-s*fone;
    cur_z += n;
}

其次，我认为最好制作这个函数的模板化版本。因此，如果您的矩阵包含整数值（因为 FPU 操作较慢），您可以获得良好的性能优势。

c++ - 这段代码的瓶颈在哪里？

3 回答 3

Related

Reference