我正在尝试计算可以并行化的代码的分数 P,以应用阿姆达尔定律并观察理论上的最大加速。
我的代码大部分时间都花在乘法矩阵上(使用库 Eigen)。我应该认为这部分是完全可并行的吗?
我正在尝试计算可以并行化的代码的分数 P,以应用阿姆达尔定律并观察理论上的最大加速。
我的代码大部分时间都花在乘法矩阵上(使用库 Eigen)。我应该认为这部分是完全可并行的吗?
如果您的矩阵足够大,比方说大于 60,那么您可以在启用 OpenMP 的情况下进行编译(例如,使用 gcc 的 -fopenmp)并且产品将为您并行化。但是,通常最好在最高级别进行并行化,尤其是在矩阵不是很大的情况下。然后取决于您是否可以识别算法中的独立任务。
首先,考虑 Eigen 库如何处理矩阵乘法是合适的。
然后,没有 Eigen 的矩阵(mxn)-向量(nx1)乘法可以写成这样:
1 void mxv(int m, int n, double* a, double* b, double* c)
2 { //a=bxc
3 int i, j;
4
5 for (i=0; i<m; i++)
6 {
7 a[i] = 0.0;
8 for (j=0; j<n; j++)
9 a[i] += b[i*n+j]*c[j];
10 }
11 }
如您所见,由于没有两个乘积计算结果向量 a[] 的相同元素,并且 i=0...m 的元素 a[i] 的值的计算顺序不会影响正确性答案是,这些计算可以在 i 的索引值上独立进行。
然后像前一个这样的循环是完全可并行的。在此类循环上使用 OpenMP 进行并行实现会相对简单。