1

我正在使用 google cloud ml 分布式样本在计算机集群上训练模型。输入输出(即rfrecords、checkpoints、tfevents)都在gs://(google storage)上

与分布式样本类似,我使用最后调用的评估步骤,并将结果写为摘要,以便在 Cloud ML 或使用我自己的工具堆栈中使用参数超调。

但是,我不是对大量数据执行单一评估,而是运行几个评估步骤,以便检索有关性能标准的统计信息,因为我不想局限于单个值。我想获取有关性能间隔的信息。特别是,性能的差异对我来说很重要。我宁愿选择平均性能较低但最坏情况更好的模型。

因此,我运行了几个评估步骤。我想做的是并行化这些评估步骤,因为现在只有主人在评估。当使用大型集群时,它是效率低下的一个来源,并且任务工作者也需要评估。

基本上,主管创建为:

self.sv = tf.train.Supervisor(
            graph,
            is_chief=self.is_master,
            logdir=train_dir(self.args.output_path),
            init_op=init_op,
            saver=self.saver,
            # Write summary_ops by hand.
            summary_op=None,
            global_step=self.tensors.global_step,
            # No saving; we do it manually in order to easily evaluate immediately
            # afterwards.
            save_model_secs=0)

在培训结束时,我打电话给总结作家。:

            # only on master, this is what I want to remove
            if self.is_master and not self.should_stop:

                # I want to have an idea of statistics of accuracy
                # not just the mean, hence I run on 10 batches

                for i in range(10):
                    self.global_step += 1

                    # I call an evaluator, and extract the accuracy 
                    evaluation_values = self.evaluator.evaluate()
                    accuracy_value = self.model.accuracy_value(evaluation_values)

                    # now I dump the accuracy, ready to use within hptune
                    eval_summary = tf.Summary(value=[
                        tf.Summary.Value(
                            tag='training/hptuning/metric', simple_value=accuracy_value)
                    ])

                    self.sv.summary_computed(session, eval_summary, self.global_step)

我也尝试从工人那里写总结,但我得到了一个错误:基本上总结只能从主人那里写。有什么简单的解决方法吗?错误是:"Writing a summary requires a summary writer."

4

1 回答 1

2

我的猜测是你会自己为每个工人创建一个单独的摘要编写器,而是直接写出摘要。

我怀疑您也不会使用主管进行评估处理。只需在每个工作人员上加载一个会话,以使用最新的检查点进行评估,并写出独立的摘要。

于 2016-11-11T06:45:46.343 回答