0

我打算为机器学习算法编写一个 cuda 内核,但我尝试比较从设备代码获得的效率和从主机到设备的数据传输时间损失。有什么工具可以帮助我,或者有什么准确的方法可以进行这种比较以得出 cuda 实现是否值得编码?

4

1 回答 1

1

使用 CUDA 分析器。它绘制了漂亮的图表,代表您的程序及时执行的操作。这将显示传输时间和内核运行时间。通常,如果您的算法与数据大小相比进行了大量计算,您将看到显着的提升。

于 2013-06-21T10:12:14.550 回答