0

我正在努力让 textsum 实现工作,最近得到了我自己的抓取数据。我昨晚开始针对 38000 篇文章进行培训。今天早上当我查看平均损失时,我在 5.2000000 左右。例如,当我玩 textsum 玩具套装时,我能够快速降低到 0.0000054 左右,但这仅针对 20 篇文章。

我希望有更多经验的人能给我一些关于培训需要多长时间的期望。我目前在 Nvidia 980M 上运行它。上周我确实想试用 AWS g2.2xlarge 实例,但具有讽刺意味的是,我的本地机器处理事情的速度似乎比 Grid 520 快。我仍然想测试 P2 实例和谷歌云,但现在我想我只打算使用我的本地机器。

关于我应该期待什么,任何人都可以在这里提供任何信息?谢谢!

4

1 回答 1

2

因此,我将自己回答这个问题,因为此时我几乎可以这样做。我从另一篇文章中发现有趣的一件事是,对于大型数据集,关于“平均损失”值,你真的不应该训练低于 1。这是因为您随后开始陷入“过度拟合”。因此,在我目前使用笔记本电脑的 Nvidia 980M 对 40k 篇文章进行的训练中,词汇文件有 65997 个单词,平均需要大约一天的时间才能将“平均损失”降低一个整数。所以目前我看到的数字在 1.2 到 2.8 之间。

------ 编辑 ------ 当我在上面的数字上使用我的平均损失对数据运行解码时,结果非常糟糕。在考虑了更多之后,我意识到我的数据集可能不是一个“大”数据集。像 Xin Pan 和其他可以访问 Gigaword 数据集的人正在对超过 100 万篇文章进行训练。因此,我觉得我的 40k 文章无法与之相比。同样,当做出上述陈述时,我不确定他的意思是平均损失 1 还是 0.01。无论哪种方式,我现在指的是 Tensorboard 以在某种程度上可视化“过度拟合”,并且我将继续我的训练,直到我得到更低的平均损失。当我的结果更好时,我会在以后添加这个。

希望这可以为那些想知道相同的人提供一点参考。

于 2016-10-17T15:16:16.430 回答