我打算为机器学习算法编写一个 cuda 内核,但我尝试比较从设备代码获得的效率和从主机到设备的数据传输时间损失。有什么工具可以帮助我,或者有什么准确的方法可以进行这种比较以得出 cuda 实现是否值得编码?
问问题
80 次
我打算为机器学习算法编写一个 cuda 内核,但我尝试比较从设备代码获得的效率和从主机到设备的数据传输时间损失。有什么工具可以帮助我,或者有什么准确的方法可以进行这种比较以得出 cuda 实现是否值得编码?