我的 TensorBoard Profile 计算结果有点可疑。似乎我的主机空闲时间(不确定这是指哪个主机?)非常高,非常糟糕,但我的 TPU 空闲时间为 0%,非常好。另外,我还需要做什么来测量步长?我有点迷失在这里。
问问题
735 次
1 回答
1
没有步骤时间图的结果可以指示步骤时间长于默认收集持续时间(2 秒)。
要增加此运行 capture_tpu_profile 与选项
--duration_ms=60000
捕获 60 秒的指标。
检查这是否是问题的一种方法是在跟踪查看器中查看顶部的编号步骤。
TPU 步进时间通常远小于一秒,因此如果 60 秒仍然不够长,则可能是输入管道的问题。跟踪查看器应该向您显示哪些线程正在占用时间,您可以按照本指南优化输入管道。
https://www.tensorflow.org/performance/datasets_performance
另一种选择是在模型运行几个步骤后捕获配置文件,由于缓存的建立,前几个步骤往往较慢。
于 2018-09-26T00:37:35.160 回答