为了大致了解 openCl 对我有多大帮助,我对矩阵-矩阵乘法进行了测试,因为这种基本的线性代数将是我的主要用途。我使用的代码可以在这里找到:http: //vasanthexperiments.wordpress.com/2011/11/20/aparapi-java-matrix-multiplication-example/。(1024*1024 x 1024*1024 矩阵-矩阵乘积)
基本上,我对结果感到非常失望,因为与 CPU 上的串行计算(小于 x2)相比,加速只是微不足道,如果我让 Aparapi 使用 CPU(它确实并行化),CPU 甚至更快。
在执行过程中,显卡处于满载状态,所以我认为应该没有通信问题。
我的硬件配置:
i7 2670QM
AMD 7610M
16GB RAM
由于我对 GPGPU 完全陌生,我不知道会发生什么。
1.我的设置有可能被搞砸了吗?如果是这样,我应该在哪里看?
2. 还是我对入门级显卡的期望过高?如果是这样,不同型号的显卡如何应对这种问题?如果我想获得更快的硬件,我必须寻找哪些规格?
编辑:
好的,所以我只是用 10x10 矩阵重新运行程序。
不出所料,CPU 需要的时间不到 1 毫秒。
但是,GPU需要1600多,所以肯定是Aparapi或openCL或我的硬件有问题(驱动程序应该是最新的)。有人知道我应该在哪里看吗?