有没有人有使用零拷贝(参考这里:默认固定内存与零拷贝内存)内存模型分析 CUDA 应用程序性能的经验?
我有一个使用零拷贝功能的内核,使用 NVVP 我看到以下内容:
以平均问题大小运行内核,我得到 0.7% 的指令重放开销,所以没什么大不了的。所有这 0.7% 都是全局内存重放开销。
当我真正增加问题大小时,我得到了 95.7% 的指令重播开销,所有这些都是由于全局内存重播开销造成的。
但是,正常问题大小内核运行和非常非常大问题大小内核运行的全局加载效率和全局存储效率是相同的。我不太确定如何利用这些指标组合。
我不确定的主要事情是 NVVP 中的哪些统计数据将帮助我了解零拷贝功能的情况。关于我应该查看哪种类型的统计数据的任何想法?