谷歌大神并没有向我解释一些循环优化问题。所以,很遗憾我没有足够的 Google-fu,我求助于 StackOverflow。
我正在优化用于求解特定微分方程组的 C 程序。在寻找数值解的过程中,我调用一个建立线性方程组的函数,然后调用一个函数来解决它。
求解函数最初在访问定义线性系统的数组对角线上的元素时存在瓶颈。因此,我包含了一个在系统初始化期间设置的一维数组,该数组保存沿数组对角线的值。
为了好玩,我继续使用初始化对角元素的代码,测量它所花费的时间并尝试不断改进代码。我尝试的版本导致了几个问题:
注意:我将我尝试过的所有版本都放在一个函数中,并分析了这个函数以查看时间花在了哪里。我将报告一个版本的执行时间占函数总时间的百分比。该功能被评估了数百万次。数字越小越好。
代码中使用的数据的相关声明:
/* quick definitions of the relevant variables, data is a struct */
static const int sp_diag_ind[98] = {2,12,23,76,120,129,137,142,.../* long list */};
double *spJ = &(data->spJ[0]);
/* data has double spJ[908] that represents a sparse matrix stored in triplet
* form, I grab the pointer because I've found it to be more
* efficient than referencing data->spJ[x] each time I need it
*/
int iter,jter;
double *diag_data = NV_DATA_S(data->J_diag);
/* data->J_diag has a content field that has an array double diag_data[150]
* NV_DATA_S is a macro to return the pointer to the relevant data
*/
我用于初始化 diag_data的原始循环。时间是评估的 16.1%(见注)。
/* try 1 */
for (iter = 0; iter<3; iter++) {
diag_data[iter] = 0;
}
jter = 0;
for (iter = 3; iter<101; iter++) { // unaligned loop start
diag_data[iter] = spJ[sp_diag_ind[jter]];
jter++; // heavy line for loop
}
for (iter = 101; iter<150; iter++) {
diag_data[iter] = 0;
}
总而言之,我们抓取指向对角线的指针,将一些组件设置为零(根据我使用的算法,这不是可选的),然后抓取驻留在以稀疏形式表示的“数组”的对角线上的值通过 spJ。由于 spJ 是 150x150 数组(大部分为零)的 908 个非零的一维数组,我们必须使用查找来查找 spJ 中对角线元素的位置。此查找由 98 元素数组 sp_diag_ind 定义。
我试图删除 jter 的使用,因为它显示为不可自由增加。我第二次尝试的中间循环:
for (iter = 0; iter<98; iter++) { // unaligned loop start
diag_data[iter+3] = spJ[sp_diag_ind[iter]];
}
这使情况有所改善。此版本的时间为 15.6%。但是当我查看 Shark 对此代码的分析(Mac 上 XCode 附带的工具)时,它警告我这是一个未对齐的循环。
第三次改进的尝试是删除“归零”循环并使用 memset 将 diag_data 归零:
memset(diag_data, '\0', sizeof(diag_data));
for (iter = 0; iter<98; iter++) { // unaligned loop start
diag_data[iter+3] = spJ[sp_diag_ind[iter]];
}
时间为 14.9%。不确定什么是未对齐的循环,我继续摆弄。我发现了一个改进的第四个实现,使用指针在 diag_data 和 spJ[crazy index] 之间进行对齐偏移:
realtype * diag_mask = &diag_data[3];
for (iter = 0; iter<98; iter++) { // unaligned loop start
diag_mask[iter] = spJ[sp_diag_ind[iter]];
}
使用 diag_mask 可以稍微提高速度。它以 13.1% 的比例出现。
编辑:原来这部分比我最初想象的更愚蠢。iter 的使用是未定义的。支持@caf 和@rlibby 来捕捉它。
最后,我尝试了一些我认为很愚蠢的方法:
memset(diag_data, '\0', sizeof(diag_data));
for (iter = 0; iter<98;) {
diag_mask[iter] = spJ[sp_diag_ind[iter++]];
}
时间为 10.9%。此外,当我查看带注释的源代码时,Shark 不会发出未对齐循环警告。 结束愚蠢的部分
所以,我的问题:
- 什么是未对齐的循环?
- 为什么第五个实现是一致的,而第四个不是?
- 是否有一个对齐的循环负责在我的第四个和第五个实现之间提高执行速度,或者是否将增量步骤嵌入到 sp_diag_ind 的值的查找中?
- 你看到我可以做的任何其他改进吗?
谢谢您的帮助。
- 安德鲁