1

我想在 CloudML 上分析 TensorFlow 模型。当我使用 tf.RunOptions(trace_level=tf.RunOptions.FULL_TRACE) 时,我的进程以非零退出代码终止,而没有详细说明发生了什么。

我尝试添加和删除打开此选项的代码,并且此选项与进程死亡之间​​存在 100% 的相关性。

错误消息是“副本主机 0 以非零状态 250 退出。终止原因:错误。要了解有关您的工作退出原因的更多信息,请查看日志

如何诊断和解决此问题?

4

2 回答 2

1

它是通过使用 tensorflow 1.1.0 而不是 1.0.0 修复的。但是,没有显示分析信息。

于 2017-05-03T20:18:20.307 回答
0

对于您的问题,基本上退出状态意味着您的代码在运行期间获得了 SIGABRT。

更新:加载 libcupti 时存在问题。Cloud ML Engine 发现了一个与之相关的错误。修复正在进行中。该问题将在以后的版本中得到解决。

于 2017-05-03T00:48:43.710 回答