我正在使用 Tesla k40 和 GTX Titan X,并且我有 Cuda 8.0 我使用的函数是 CuBlas 和 CuSparse 库函数: cusparseDcsrsv2_solve(); cusparseDcsrmv(); cublasDdot();
为什么 GTX Titan X 比 K40 快?我正在为从 3.0 到 6.0 的所有计算能力编译带有标志的 nvcc,并且我的程序处理 9 GB / 12 GB RAM。关于我,库函数不使用双精度,因为浮点 GTX TITAN X 有 6.xx Tflops,K40 有 4.xx Tflops,而浮点双 GTX TITAN X 有 2xx GFlops,K40 有 1.xx Tflops。从理论上讲,K40 必须比 GTX TITAN X 更快,这可能是我的问题吗?太奇怪了。