tensorflow - textsum 训练大约需要多长时间才能将平均损失降至可观的价值

Question

我正在努力让 textsum 实现工作，最近得到了我自己的抓取数据。我昨晚开始针对 38000 篇文章进行培训。今天早上当我查看平均损失时，我在 5.2000000 左右。例如，当我玩 textsum 玩具套装时，我能够快速降低到 0.0000054 左右，但这仅针对 20 篇文章。

我希望有更多经验的人能给我一些关于培训需要多长时间的期望。我目前在 Nvidia 980M 上运行它。上周我确实想试用 AWS g2.2xlarge 实例，但具有讽刺意味的是，我的本地机器处理事情的速度似乎比 Grid 520 快。我仍然想测试 P2 实例和谷歌云，但现在我想我只打算使用我的本地机器。

关于我应该期待什么，任何人都可以在这里提供任何信息？谢谢！

score 2 · Accepted Answer

因此，我将自己回答这个问题，因为此时我几乎可以这样做。我从另一篇文章中发现有趣的一件事是，对于大型数据集，关于“平均损失”值，你真的不应该训练低于 1。这是因为您随后开始陷入“过度拟合”。因此，在我目前使用笔记本电脑的 Nvidia 980M 对 40k 篇文章进行的训练中，词汇文件有 65997 个单词，平均需要大约一天的时间才能将“平均损失”降低一个整数。所以目前我看到的数字在 1.2 到 2.8 之间。

------ 编辑 ------ 当我在上面的数字上使用我的平均损失对数据运行解码时，结果非常糟糕。在考虑了更多之后，我意识到我的数据集可能不是一个“大”数据集。像 Xin Pan 和其他可以访问 Gigaword 数据集的人正在对超过 100 万篇文章进行训练。因此，我觉得我的 40k 文章无法与之相比。同样，当做出上述陈述时，我不确定他的意思是平均损失 1 还是 0.01。无论哪种方式，我现在指的是 Tensorboard 以在某种程度上可视化“过度拟合”，并且我将继续我的训练，直到我得到更低的平均损失。当我的结果更好时，我会在以后添加这个。

希望这可以为那些想知道相同的人提供一点参考。

tensorflow - textsum 训练大约需要多长时间才能将平均损失降至可观的价值

1 回答 1

Related

Reference