由于 Thrust 库的一些性能问题(有关更多详细信息,请参阅此页面),我计划重构 CUDA 应用程序以使用 CUB 而不是 Thrust。具体来说,替换thrust::sort_by_key 和thrust::inclusive_scan 调用)。在我的应用程序的某个特定点,我需要按键对 3 个数组进行排序。这就是我用推力做到这一点的方式:
thrust::sort_by_key(key_iter, key_iter + numKeys, indices);
thrust::gather_wrapper(indices, indices + numKeys,
thrust::make_zip_iterator(thrust::make_tuple(values1Ptr, values2Ptr, values3Ptr)),
thrust::make_zip_iterator(thrust::make_tuple(valuesOut1Ptr, valuesOut2Ptr, valuesOut3Ptr))
);
在哪里
key iter
是一个推力::device_ptr 指向我想要排序的键indices
指向设备内存中的一个序列(从 0 到 numKeys-1)values{1,2,3}Ptr
是我想要排序的值的 device_ptrsvalues{1,2,3}OutPtr
是排序值的 device_ptrs
使用CUB SortPairs函数,我可以对单个值缓冲区进行排序,但不能一次性对所有 3 个值进行排序。问题是我没有看到任何 CUB“类似收集”的实用程序。建议?
编辑:
我想我可以实现我自己的收集内核,但是除了:
template <typename Index, typename Value>
__global__ void gather_kernel(const unsigned int N, const Index * map,
const Value * src, Value * dst)
{
unsigned int i = blockDim.x * blockIdx.x + threadIdx.x;
if (i < N)
{
dst[i] = src[map[i]];
}
}
未合并的负载和存储让我感到厌烦,但如果没有已知的结构,这可能是不可避免的map
。