machine-learning - 如何在 ML 推理期间检查 GPU 的总线利用率/总线负载？

问问题 2022-02-17T09:09:16.293

20 次

我正在使用 onnxruntime 在 GPU 上运行 ML 推理以进行图像识别，我看到图像批处理给我带来多少性能改进的上限 - 推理时间减少到大约 8 的 batch_size，超过该时间仍然存在持续的。我认为这一定是因为 GPU 资源的一些最大利用率，因为我没有看到 onnx 文档中提到的任何此类限制。我尝试使用包 pynmvl.smi 来获取 nvidia_smi 并在推理过程中打印一些利用率因子 -

utilization_percent = nvidia_smi.getInstance().DeviceQuery()['gpu'][0]['utilization']
gpu_util.append(utilization_percent ['gpu_util'])
mem_util.append(utilization_percent ['memory_util'])

我所看到的是 gpu_util 和 memory_util 在我的整个推理运行中都在 25% 以内，即使批量大小为 32 或 64，所以这些不太可能是造成瓶颈的原因。然后我假设它一定是总线负载限制可能导致这种情况。我在 nvidia-smi 中没有找到任何打印 GPU 总线负载的选项。如何在推理过程中找到总线负载？

0 回答 0

java - 声明一个扩展类并实现其他类的引用

android - 如何将画廊视图中加载的资产文件夹中的图像附加到电子邮件android？

c++ - 在 C++ 上给定布尔表达式分配整数值

mysql - 如何计算两列中具有相同值的行并仅返回计数的行

关于那个问题：如何计算两列（SQL）中具有相同值的行？

有没有办法只返回计数小于 3 的行？

+----


					
						2
					
					windows-8 - Windows 8 / Metro UI 中文本框下的自动完成框


					
						1
					
					email - 将 AppleScript 应用到 Mail 中的特定电子邮件消息


					
						8
					
					c# - 简单的 try/catch 不使用异常


					
						4
					
					matlab - 计算字符串出现次数并绘制直方图


					
						2
					
					content-management-system - silverstripe 3 addFieldToTab“设置”


					
						2
					
					linux - 限制对 Wordpress 中上传内容的访问（通过插件或 httpd 配置）


	
	Reference
	
		php × 1429865 
	
	
		c/c++ × 756500 
	
	
		nginx × 49975 
	
	
		mongodb × 159057 
	
	
		mybatis × 3233 
	
	
		anaconda × 13410 
	
		
		pycharm × 14671 
	
	
		python × 1902243 
	
	
		vscode × 56040 
	
		
		docker × 110988 
	
	
		github × 49000 
	
	
		flask × 49129 
	
	
		ffmpeg × 24037 
	
	
	
		jmeter × 16910 
	
	
		matplotlib × 63493 
	
	
		bootstrap × 54641

machine-learning - 如何在 ML 推理期间检查 GPU 的总线利用率/总线负载？

0 回答 0

Related

Reference