我正在为我在 CUDA 中的项目寻找高性能多扫描/多前缀和(一个内核执行中的多行)函数。
我已经尝试过 Thrust 库中的那个,但它太慢了。在使用 nvcc 调试标志 (-g -G) 编译后也会导致崩溃。
在 Thrust 失败后,我专注于 cuDPP 库,它曾经是 CUDA 工具包的一部分。cuDPP 性能非常好,但库不是最新的 cuda 5.5,并且在使用内存检查器进行调试时,cudppMultiScan() 函数中存在一些全局内存违规问题。(cuda 5.5,nsight 3.1,视觉工作室 2010,gtx 260 cc 1.3)
有人知道用什么来代替这两个库吗?
R。