我正在测试一个分布式 TensorFlow,几乎与inception_distributed_train.py(同步数据并行)相同,但使用基本示例的默认mnist 数据集。
对于主工人(仅),对于sv = tf.train.Supervisor
关闭sv.stop()
给出RuntimeError: ('Coordinator stopped with threads still running: %s', 'Thread-4')
。
同时在ps
节点上,我看到了日志Variable:0: Skipping cancelled dequeue attempt with queue not closed
,变量 1-7 也是如此,但有趣的是,变量 8 没有定义为global_step = tf.Variable(0)
并传递给tf.train.SyncReplicasOptimizer
方法minimize
as global_step
。
这个错误是否会给任何人敲响警钟?我真的看不出我的逻辑与inception_distributed_train.py的逻辑有何不同