我正在寻找 OpenCL 中 scan(prefixsum) 的快速实现。我发现最好的东西是在 Nvidia SDK 中,但它很旧(2010 年)。有谁知道 OpenCL 中 Scan 的任何其他实现?
问问题
537 次
2 回答
1
OpenCL 中有几种扫描操作的开源实现:
- CLOGS,用于在 OpenCL C++ API 之上进行更高级别操作的库。
- Boost.Compute,一个用于 OpenCL 的 C++ GPU 计算库。
- VexCL,一个用于 OpenCL/CUDA 的 C++ 向量表达式模板库。
- Bolt,一个针对 GPU 优化的 C++ 模板库。
CLOGS 的作者写了一篇论文,比较了这些实现中扫描(和排序)操作的性能。
于 2015-09-05T19:11:16.933 回答
0
如果您的设备支持 2.0,请使用内置操作。
https://stackoverflow.com/a/32394920/4877550
http://developer.amd.com/community/blog/2014/11/17/opencl-2-0-device-enqueue/
于 2015-09-05T15:19:58.203 回答