tensorflow - 如何解释 textsum 模型的这个损失曲线？

问问题 2017-08-15T22:42:13.967

188 次

0

我一直在训练 textsum seq2seq w/attention 模型，用于在 60 万篇文章 + 摘要的训练语料库上进行抽象摘要。这算不算收敛？如果是这样，它在不到 5k 步后收敛是否正确？注意事项：

我已经训练了 200k 的词汇量
批量大小为 4 的 5k 步（直到近似收敛）意味着最多可以看到 20k 个不同的样本。这只是整个训练语料库的一小部分。

还是我实际上没有在茶叶中读到我的狗的脸，边际负斜率是否符合预期？

1 回答 1

0

好的，所以我实际上转而在 GPU（而不是 CPU）上进行训练，并证明模型仍在学习。这是初始化一个全新模型后的学习曲线：

使用 AWS p2.xlarge NVIDIA K80 的训练速度提高了大约 30 倍。

于 2017-09-11T09:49:15.853 回答