大多数论文都展示了 flops/Gflops 并为他们的 CUDA 内核实现了带宽。我还阅读了有关 stackoverflow 的以下问题的答案:
大多数事情看起来都不错,但仍然让我在计算这些事情时感到不舒服。任何人都可以编写一个简单的 CUDA 内核吗?然后给出 deviceQuery 的输出。然后逐步计算 flops/Gflops 并为该内核实现带宽。然后显示此内核的 Visual Profiler 结果。即详细显示结果,其中包含为这个简单的 CUDA 内核逐步获得的所有信息。这对我们大多数人来说真的很有帮助。谢谢!