0

我正在寻找 OpenCL 中 scan(prefixsum) 的快速实现。我发现最好的东西是在 Nvidia SDK 中,但它很旧(2010 年)。有谁知道 OpenCL 中 Scan 的任何其他实现?

4

2 回答 2

1

OpenCL 中有几种扫描操作的开源实现:

  • CLOGS,用于在 OpenCL C++ API 之上进行更高级别操作的库。
  • Boost.Compute,一个用于 OpenCL 的 C++ GPU 计算库。
  • VexCL,一个用于 OpenCL/CUDA 的 C++ 向量表达式模板库。
  • Bolt,一个针对 GPU 优化的 C++ 模板库。

CLOGS 的作者写了一篇论文,比较了这些实现中扫描(和排序)操作的性能。

于 2015-09-05T19:11:16.933 回答
0

如果您的设备支持 2.0,请使用内置操作。

https://stackoverflow.com/a/32394920/4877550

http://developer.amd.com/community/blog/2014/11/17/opencl-2-0-device-enqueue/

于 2015-09-05T15:19:58.203 回答