我正在查看一些 hpc 代码的 sycl 端口的性能,我通过 hipSYCL 在 GV100 卡上运行这些代码。
通过分析器运行代码告诉我,非常高的寄存器使用率可能是性能的限制因素。
有什么方法可以影响 hipSYCL / clang 生成的 gpu 代码的寄存器使用,类似于 nvcc 的-maxregcount
选项?
我正在查看一些 hpc 代码的 sycl 端口的性能,我通过 hipSYCL 在 GV100 卡上运行这些代码。
通过分析器运行代码告诉我,非常高的寄存器使用率可能是性能的限制因素。
有什么方法可以影响 hipSYCL / clang 生成的 gpu 代码的寄存器使用,类似于 nvcc 的-maxregcount
选项?