0

我的 Tensorflow 训练作业以非零状态 1 退出,并且没有提供任何有用的错误消息。回溯看起来像是隐藏的 [...] 并且提供的链接是相似的。以下是日志输出的内容:

在此处输入图像描述

我已经检查了具有Cloud ML 服务代理角色的服务帐户,该服务代理具有logging.logEntries.create的权限。Cloud ML Service 代理的描述还指出:

Cloud ML 服务代理可以充当日志写入器、云存储管理员、工件注册表读取器、BigQuery 写入器和服务帐户访问令牌创建者。

所以我假设它有权将日志写入记录器......我的问题是我如何解决我的工作失败的原因?

4

1 回答 1

0

这可能是您的训练虚拟机实例没有足够的权限来写入日志。获取虚拟机的服务帐户名称,转到 IAM 角色并将角色分配Log writer给服务帐户。

于 2020-10-30T07:17:10.837 回答