Find centralized, trusted content and collaborate around the technologies you use most.
Teams
Q&A for work
Connect and share knowledge within a single location that is structured and easy to search.
如果我有一个N×N二维数组,并且我想将它的每个四分之一平均为相同的数字,如下所示:
matrix = [ 1 2 4 6 6 7 1 1 9 8 3 6 4 7 9 2 ]
并在其上应用 cuda 内核后,结果将是:
result = [ 4 4 3 3 4 4 3 3 7 7 5 5 7 7 5 5 ]
这如何用 C cuda 内核实现?
做这种操作没有什么特别的问题。立即浮现在脑海中的方法是:
CUDA 工具包附带的推力模板库包含实现此功能所需的大部分算法。唯一需要的用户代码将是一个标记每个子矩阵的函子,这应该很容易编写。