3

我正在测试一个分布式 TensorFlow,几乎与inception_distributed_train.py(同步数据并行)相同,但使用基本示例的默认mnist 数据集

对于主工人(仅),对于sv = tf.train.Supervisor关闭sv.stop()给出RuntimeError: ('Coordinator stopped with threads still running: %s', 'Thread-4')

同时在ps节点上,我看到了日志Variable:0: Skipping cancelled dequeue attempt with queue not closed,变量 1-7 也是如此,但有趣的是,变量 8 没有定义为global_step = tf.Variable(0)并传递给tf.train.SyncReplicasOptimizer方法minimizeas global_step

这个错误是否会给任何人敲响警钟?我真的看不出我的逻辑与inception_distributed_train.py的逻辑有何不同

4

0 回答 0