我已经为 2D 卷积制作了一个 CUDA 程序,现在想将它与一些非 CUDA 实现进行比较以测量加速。
我可以使用经典的多循环方法或 matlab 的 conv2 与我自己在纯 C 中的实现进行比较,但感觉不像是合法/公平的比较,因为它们不是最快的实现。
我也在考虑尝试 OpenCV,我一直在寻找一个 SIMD 优化版本,但没有运气。有什么建议,我应该使用 OpenCV 吗?
注意:我已经阅读了其他问题,包括这个问题,但答案与我的纯 C 代码或对各种可用方法的讨论基本相同。
我已经为 2D 卷积制作了一个 CUDA 程序,现在想将它与一些非 CUDA 实现进行比较以测量加速。
我可以使用经典的多循环方法或 matlab 的 conv2 与我自己在纯 C 中的实现进行比较,但感觉不像是合法/公平的比较,因为它们不是最快的实现。
我也在考虑尝试 OpenCV,我一直在寻找一个 SIMD 优化版本,但没有运气。有什么建议,我应该使用 OpenCV 吗?
注意:我已经阅读了其他问题,包括这个问题,但答案与我的纯 C 代码或对各种可用方法的讨论基本相同。