我正在尝试实现一个使用统一内存的 CUDA 程序。我有两个统一的数组,有时它们需要自动更新。
下面的问题有一个针对单个 GPU 环境的答案,但我不确定如何扩展问题中给出的答案以适应多 GPU 平台。
如果您需要此信息,我有 4 个 Tesla K20,并且所有这些都更新了必须以原子方式完成的阵列的一部分。
我将不胜感激任何帮助/建议。
我正在尝试实现一个使用统一内存的 CUDA 程序。我有两个统一的数组,有时它们需要自动更新。
下面的问题有一个针对单个 GPU 环境的答案,但我不确定如何扩展问题中给出的答案以适应多 GPU 平台。
如果您需要此信息,我有 4 个 Tesla K20,并且所有这些都更新了必须以原子方式完成的阵列的一部分。
我将不胜感激任何帮助/建议。
将评论总结为答案:
atomicAdd_system
-arch=sm_60
或类似的与往常一样,这些信息在编程指南的相关部分中得到了简洁的总结。