我一直在训练 textsum seq2seq w/attention 模型,用于在 60 万篇文章 + 摘要的训练语料库上进行抽象摘要。这算不算收敛?如果是这样,它在不到 5k 步后收敛是否正确?注意事项:
- 我已经训练了 200k 的词汇量
- 批量大小为 4 的 5k 步(直到近似收敛)意味着最多可以看到 20k 个不同的样本。这只是整个训练语料库的一小部分。
还是我实际上没有在茶叶中读到我的狗的脸,边际负斜率是否符合预期?
我一直在训练 textsum seq2seq w/attention 模型,用于在 60 万篇文章 + 摘要的训练语料库上进行抽象摘要。这算不算收敛?如果是这样,它在不到 5k 步后收敛是否正确?注意事项:
还是我实际上没有在茶叶中读到我的狗的脸,边际负斜率是否符合预期?