NPP 功能,更具体的 npps ( https://docs.nvidia.com/cuda/npp/group__npps.html ) 可以作为设备功能调用吗?
如果我创建一个全局函数,我可以在内部调用 npps 函数nppsMaxIndx_32f
(以计算向量的最大值)吗?
示例:我有 100 个向量,每个向量有 10000 个浮点数,如果我在主机代码中执行此操作,我必须对 npp 函数进行 100 次调用
如果我创建一个 100 个线程的全局函数并在内部为每个向量调用 npp 函数以便它们同时启动,这会起作用吗?nppsMaxIndx_32f
可以作为设备函数调用吗?