直到几天前,我一直在成功使用带有 tensor2tensor 和 cloud-tpu 后端的 ai-platform train api,但似乎有些事情发生了变化,自上周以来我无法让它工作。
我在日志中看到的工作/非工作之间的差异是配置中的“_master”和“_evaluation_master”。
上次成功的 train api 日志显示如下所示。
Using config: {
'_model_dir':...,
....,
'_master': 'grpc://10.228.38.186:8470',
'_evaluation_master': 'grpc://10.228.38.186:8470',
...
'_cluster': None, 'use_tpu': True
}
但是,我从上周开始看到的日志如下。
Using config: {
'_model_dir': ...,
'_master': 'cmle-training-2190487948974557758-tpu',
'_evaluation_master': 'cmle-training-2190487948974557758-tpu',
...,
'_cluster': None, 'use_tpu': True
}
然后,tensorflow 尝试通过主机名连接 tpu,最终失败,进程停止。
Not found: No session factory registered for the given session options:
{
target: "cmle-training-4208055151697798232-tpu"
config: operation_timeout_in_ms: 300000
}
Registered factories are {DIRECT_SESSION, GRPC_SESSION}.
两个实验使用相同的代码。
如果有人遇到过类似的问题,请指导我完成这个。谢谢!