6

我正在计算一个方程 A*x=B,其中 A 是矩阵,B 是向量,x 是答案(未知)向量。

硬件规格:Intel i7 3630QM(4 核),nVidia GeForce GT 640M(384 CUDA 核)

这是一个例子:

>> A=rand(5000);

>> B=rand(5000,1);

>> Agpu=gpuArray(A);

>> Bgpu=gpuArray(B);

>> tic;A\B;toc;

Elapsed time is 1.382281 seconds.

>> tic;Agpu\Bgpu;toc;

Elapsed time is 4.775395 seconds.

不知何故,GPU要慢得多……为什么?FFT、INV、LU计算也比较慢,应该和矩阵除法有关。

但是,GPU 在矩阵乘法中要快得多(相同的数据):

>> tic;A*B;toc;

Elapsed time is 0.014700 seconds.

>> tic;Agpu*Bgpu;toc;

Elapsed time is 0.000505 seconds.

主要问题是为什么 GPU A\B (mldivide) 比 CPU 慢?

更新

以下是 A、B(在 CPU 上)、AA、BB(在 GPU 上)为 rand(5000) 时的更多结果:

>> tic;fft(A);toc;
Elapsed time is *0.117189 *seconds.
>> tic;fft(AA);toc;
Elapsed time is 1.062969 seconds.
>> tic;fft(AA);toc;
Elapsed time is 0.542242 seconds.
>> tic;fft(AA);toc;
Elapsed time is *0.229773* seconds.
>> tic;fft(AA);toc;

大胆的时代是稳定的时代。但是 GPU 几乎慢了两倍。顺便说一句,为什么 GPU 在前两次尝试时更慢?是先编译两次吗?

此外:

>> tic;sin(A);toc;
Elapsed time is *0.121008* seconds.
>> tic;sin(AA);toc;
Elapsed time is 0.020448 seconds.
>> tic;sin(AA);toc;
Elapsed time is 0.157209 seconds.
>> tic;sin(AA);toc;
Elapsed time is *0.000419 *seconds

经过两次计算,GPU 在 sin 计算中的速度非常快。

那么,为什么 GPU 在矩阵除法、fft 和类似计算中如此缓慢,而在矩阵乘法和三角函数中却如此之快?这个问题实际上不应该是这样的...... GPU 在所有这些计算中应该更快,因为 Matlab 已经为 GPU 发布了重叠函数(mldivide,fft)。

有人可以帮我解决这些问题吗?:)

4

2 回答 2

4

请阅读 Matlab 如何计算解。它将帮助您了解 GPU 速度较慢的原因。

我会试着用几句话说出来。

A*x=b 变成 L*(U*x=y)=b, L*U=A

  1. 因此,Matlab 将 A 变为 L*U(据我所知,此过程不能完全并行完成,而是由于其性质,某些步骤可以并行完成)
  2. 然后 Matlab 求解 L*y=B 并找到 y。(此过程不能并行完成,因为每个步骤都需要前一个步骤的数据)
  3. 然后 Matlab 求解 U*x=y 并找到 x。(此过程不能并行完成,因为每个步骤都需要前一个步骤的数据)

所以它的 GPU 时钟比 CPU 慢,并且由于进程不能并行完成,所以 CPU 更快。不,除非你想出更好的方法(祝你好运!),否则 GPU 总是会变慢,除非在某些非常特殊的情况下。

于 2013-04-14T23:03:47.657 回答
1

解释的第 1 部分在 user2230360 的答案中,但是您的问题是双重的,所以我将添加一些关于乘法的内容。

如前所述,即使某些步骤可以并行化,LU 分解也不是很容易并行化。然而,矩阵乘法是非常可并行化的。如果您正在处理这些事情,您应该能够手动进行矩阵乘法,然后您就会知道可以按照您想要的任何顺序来计算矩阵 C 中的元素 A*B=C - 因此有可能用于并行计算。这可能就是为什么您会看到如此快速的乘法,但线性系统的求解速度却很慢。一个不能“与另一个一样多”并行化。

于 2014-01-22T08:59:53.437 回答