0

我的训练作业失败并出现错误提示:NotFoundError: Unsuccessful TensorSliceReader constructor: Failed to find any matching files for gs://my_file_name/train/model.ckpt-2-?????-of-00001 [[Node: save/RestoreV2_29 = RestoreV2[dtypes=[DT_FLOAT], _device="/job:localhost/replica:0/task:0/cpu:0"](_recv_save/Const_0, save/RestoreV2_29/tensor_names, save/RestoreV2_29/shape_and_slices) ]] 由操作 u'save/RestoreV2_29' 引起,定义在 ...

我检查了 Google Cloud Storage,并且该文件 (gs://my_file_name/train/model.ckpt-2*) 确实存在。为什么找不到它?

4

1 回答 1

1

尝试切换到单个区域的 Google Cloud Storage 存储分区。

Tensorflow 恢复功能正在尝试列出您的 Google Cloud Storage 存储桶中刚刚写入的文件。但是,如果您正在写入多区域存储桶,则在列出文件时,Google Cloud Storage 的一致性并不强。单区域桶在这种情况下是强一致的,不会有这个问题。假设单个区域与您正在训练的区域相同,它们还将提供更高的性能。

也可以看看:

https://cloud.google.com/ml/docs/how-tos/getting-set-up#setting_up_your_cloud_storage_bucket https://cloud.google.com/ml/docs/concepts/environment-overview#cloud_storage_buckets

于 2016-11-29T23:20:56.070 回答