google-cloud-ml - google ai-platform train api 使用 cloud-tpu 失败

翻译自：https://stackoverflow.com/questions/62886725 2020-07-14T01:30:24.620

94 次

直到几天前，我一直在成功使用带有 tensor2tensor 和 cloud-tpu 后端的 ai-platform train api，但似乎有些事情发生了变化，自上周以来我无法让它工作。

我在日志中看到的工作/非工作之间的差异是配置中的“_master”和“_evaluation_master”。

上次成功的 train api 日志显示如下所示。

Using config: {
  '_model_dir':..., 
  ....,
  '_master': 'grpc://10.228.38.186:8470', 
  '_evaluation_master': 'grpc://10.228.38.186:8470', 
  ...
  '_cluster': None, 'use_tpu': True
}

但是，我从上周开始看到的日志如下。

Using config: {
  '_model_dir': ...,
  '_master': 'cmle-training-2190487948974557758-tpu', 
  '_evaluation_master': 'cmle-training-2190487948974557758-tpu', 
  ...,
  '_cluster': None, 'use_tpu': True
}

然后，tensorflow 尝试通过主机名连接 tpu，最终失败，进程停止。


Not found: No session factory registered for the given session options: 
{
  target: "cmle-training-4208055151697798232-tpu" 
  config: operation_timeout_in_ms: 300000
} 
Registered factories are {DIRECT_SESSION, GRPC_SESSION}.

两个实验使用相同的代码。

如果有人遇到过类似的问题，请指导我完成这个。谢谢！

google-cloud-ml - google ai-platform train api 使用 cloud-tpu 失败

0 回答 0

Related

Reference