2

我正在研究 tensorflow 的 textsum(文本摘要模型)。我已将其运行以使用样本数据训练模型,即从 git 克隆时随模型提供的玩具数据集。我想知道用样本数据集训练模型和解码需要多少时间?它已经花费了 17 多个小时并且仍在运行。

4

2 回答 2

1

不幸的是,对于玩具数据训练集,它只是为您提供一种观察模型整体流程的方法,而不是为您提供体面的结果。这是因为玩具数据集中没有提供足够的数据来提供良好的结果。

时间量很难提供,因为它都与您运行的硬件有关。所以你通常会训练到平均损失在 2 到 1 之间。Xin Pan 表示,对于更大的数据集,你永远不应该低于 1.0 平均损失。因此,在我的 980M 上,我能够在不到一天的时间内使用玩具数据集得到这个。

也就是说,我的结果真的很糟糕,我认为有什么问题。我发现唯一的问题是我没有足够的数据。然后我抓取了大约 4 万篇文章,但结果仍然不能接受。最近我针对 130 万篇文章进行了训练,结果要好得多。经过进一步分析,这主要是由于 textsum 模型是抽象的而不是提取的。

希望这会有所帮助。对于 130 万和批量设置为 64,我能够在不到一周半的时间内使用 TF 0.9、cuda 7.5 和 cudnn 4 在我的硬件上训练模型。我听说新的 cudnn/cuda 应该更快,但我现在还不能谈这个。

于 2016-11-21T15:17:41.690 回答
0

在我的 i5 处理器上,仅使用 cpu,玩具训练数据集大约需要 60 个小时才能达到 0.17 的值。

使用 8gb 的内存,它消耗了大约 10gb 的额外交换内存。增加内存和 GPU 的使用可能会提供更好的结果。目前我无法从张量板上显示运行平均损失的图像,但我希望您的查询已得到解答。

于 2017-02-02T07:47:25.613 回答