sdk - 充分利用 CUDA 5 的功能需要哪些卡和计算能力

Question

我们刚刚收到了稳定版的 CUDA 5。有一些新的术语，如 Kepler 和使用性能更好的 MPI 的能力，以及同时运行同一张卡和 32 个应用程序的能力。我有点困惑，正在寻找这些问题的答案：

充分利用 CUDA 5 的功能需要哪些卡和计算能力？
新功能是否仅适用于 Kepler 架构，例如 GPUDirect、Dynamic Parallelism、Hyper Q 和 Dynamic Parallelism。
如果我们有 Fermi 架构，那么使用 CUDA 5 的好处是什么？除了在 Linux 和 Eclipse 上使用 NSight 的能力之外，它是否带来了其他好处。我认为最重要的功能是构建库的能力？
从 CUDA 4 到 CUDA 5，您是否看到任何性能改进？（我在 Linux 机器上得到了一些加速）

我发现了一些文件，比如

然而，一个更好、更简短的描述可能会让我们的头脑更清晰。

PS：请不要将答案局限于上述问题。我可能会错过一些类似的问题。

score 5 · Accepted Answer

动态并行需要计算能力 3.5（例如 GK110），因为早期的 GPU 没有线程启动内核或直接将其他 API 调用注入硬件命令队列所需的硬件。

Hyper-Q 需要计算能力 3.5。

SHFL 内在函数需要 CC 3.0 (GK104)

CUDA 5 中的设备代码链接、NSight EE、nvprof、性能改进和错误修复使 Fermi 和更早的 GPU 受益。

1 回答 1