1

以前,我使用函数 nvmlDeviceGetUtilizationRates() 尝试了 NVML。我通过这种方式测试它,当集合运行时,我在 Tesla C2070 上执行了一个 DFT(内核组织为 <7,32>),它有 14 个 SM,在我看来,在 GPU 上执行了 7 个块同时,利用率应该是50%,但是API给出的结果是99%,这意味着GPU被完全使用了。然后,我阅读了 NVML 的文档,nvmlDeviceGetUtilizationRates() 只能返回过去采样期间在 GPU 上执行一个或多个内核的时间百分比。当某些内核在 GPU 上运行时,如何获取活动的 SM 编号?

4

0 回答 0