0

上述函数如何在 cuda 中执行操作。我们是否需要连同此一起编写 CudaMalloc() 或 MemCopy() 或者只是在内部调用来完成所有这些。

我写

nppiResizeSqrPixel_32f_C4R(&in[0],sizeofImage,StepSize,&out[0],StepSizeOutput,DestRoi,Xfactor,YFactor,NULL,NULL,16);

这里 'in' 是具有输入图像的向量,而 'out' 是一个空向量。但是执行上述函数后,输出向量仍然是 '0' 。你能指导我如何调整函数的大小吗?

4

1 回答 1

2

它对设备数据进行操作,因此您需要使用设备分配(例如cudaMalloc)并将数据复制到设备(例如cudaMemcpy)等。

在通常的地方可以获得有限数量的 npp 调用文档,并且有CUDA 示例代码演示了 npp 库调用利用的一些示例。

对于这些资源未解决的问题,您可能还需要查看 intel ipp 文档。在许多情况下,npp 例程都非常模仿 intel ipp 功能,因此您可能会从中获得一些见解。 是一个示例文档。

还要检查任何适当的 CUDA 或 npp 调用的返回值,您还可以运行代码cuda-memcheck以获取有关可能出错的提示。

于 2017-04-11T21:16:07.053 回答