假设您要执行两个求和:一个是 10 个标量变量的求和,一个是一对二维数组的矩阵求和,维度为 10 x 10。现在让我们假设只有矩阵求和是可并行化的;使用 10 对 40 处理器时,您能获得什么加速?
我的理解:
10x10 矩阵 + 10 个标量变量 = 110t
使用 10 个处理器,(100/10)t + 10t = 20t
加速=110/20=5.5;
使用 40 个处理器,(100/40)t + 10t = 12.5t
加速=110/12.5=8.8;
解决方案书中给出的信息是,使用 10 个处理器我们可以获得大约55%的潜在加速,但使用 40 个处理器时只有22%。
我了解 55%,但那 22% 是怎么来的?