1

cuFFT 的 NVIDIA cuda 文档说“这些批量转换比单个转换具有更高的性能”(更多信息请访问:http ://docs.nvidia.com/cuda/cufft/index.html#ixzz57haP0Mtz 关注我们:@GPUComputing on Twitter | NVIDIA在 Facebook 上)但没有显示任何定量信息。有关加速多少的任何信息?从一个单一的转换我的意思是在一个 for 循环内。

4

1 回答 1

1

加速将取决于矩阵的大小、批次的数量和目标硬件(也是 CUDA 工具包版本)。如果您有大量的小矩阵,您会看到比其他情况更多的加速。加速的一部分是避免启动开销,因此对于足够大的矩阵大小,启动开销与内核执行相比较小,您不会看到那么多的加速。我相信对于非常小的矩阵,他们可以将几个批次打包在一起并使用更(内存)高效的设备功能。

我正在四处打听是否有任何白皮书或其他已发布的报告。到目前为止,我还没有找到任何东西。

于 2018-02-22T17:41:12.010 回答