根据我对 cublas 和 atlas 的 dgemm 测量结果,atlas 在速度方面远远超过 cublas。这对于配备 Intel i7 950 和 Nvidia GTX470 的系统是否可以预期?
我以 50 为增量测试了大小为 10x10 到 6000x6000 的矩阵。Atlas 总是获胜。我测量了整个应用程序执行和乘法步骤。
其他人有这方面的经验吗?这是预期的结果吗?
提前致谢。
编辑:(相同的代码,在 Xeon X5670 和 Nvidia Tesla C2050 上的结果相同)
编辑 2:如果归因于 cublas 库的初始化,它似乎很慢。我继续努力。当我了解更多信息时,我会在这里更新。