1

我有一个简单的 CUDA 代码,我将它翻译成 OpenACC。我的所有内核都按预期并行化,它们的性能与我的 CUDA 内核相似。但是,设备到主机的内存传输会影响我的性能。在我的 CUDA 代码中,我使用固定内存并且性能要好得多。不幸的是,在 OpenACC 中我不知道如何使用固定内存。我在文档中找不到任何内容。有人可以为我提供一个使用固定内存的简单 OpenACC 示例吗?

PS:我使用的是 PGI 16.10-0 64 位编译器

4

1 回答 1

3

对“tesla”目标使用“pinned”子选项,“-ta=tesla:pinned”。请注意,您可以通过“-help -ta”标志查看所有可用的子选项。

于 2016-12-28T16:22:41.857 回答