我按照在 GCP 上构建 kubeflow的教程进行操作。
在最后一步,在部署代码并使用 CPU 进行训练之后。
kustomize build . |kubectl apply -f -
分布式tensorflow遇到这个问题
tensorflow.python.framework.errors_impl.NotFoundError:/tmp/tmprIn1Il/model.ckpt-1_temp_a890dac1971040119aba4921dd5f631a;没有这样的文件或目录
[[Node: save/SaveV2 = SaveV2[dtypes=[DT_FLOAT, DT_FLOAT, DT_FLOAT, DT_FLOAT, DT_FLOAT, DT_FLOAT, DT_FLOAT, DT_FLOAT, DT_INT64], _device="/job:ps/replica:0/task :0/device:CPU:0"](save/ShardedFilename, save/SaveV2/tensor_names, save/SaveV2/shape_and_slices, conv_layer1/conv2d/bias, conv_layer1/conv2d/kernel, conv_layer2/conv2d/bias, conv_layer2/conv2d/kernel ,dense/bias,dense/kernel,dense_1/bias,dense_1/kernel,global_step)]]
我发现了类似的错误报告,但不知道如何解决。