tensorflow - 使用 tensorflow textsum 的样本数据（玩具样本数据）进行训练需要多长时间？

Question

我正在研究 tensorflow 的 textsum（文本摘要模型）。我已将其运行以使用样本数据训练模型，即从 git 克隆时随模型提供的玩具数据集。我想知道用样本数据集训练模型和解码需要多少时间？它已经花费了 17 多个小时并且仍在运行。

score 1 · Accepted Answer

不幸的是，对于玩具数据训练集，它只是为您提供一种观察模型整体流程的方法，而不是为您提供体面的结果。这是因为玩具数据集中没有提供足够的数据来提供良好的结果。

时间量很难提供，因为它都与您运行的硬件有关。所以你通常会训练到平均损失在 2 到 1 之间。Xin Pan 表示，对于更大的数据集，你永远不应该低于 1.0 平均损失。因此，在我的 980M 上，我能够在不到一天的时间内使用玩具数据集得到这个。

也就是说，我的结果真的很糟糕，我认为有什么问题。我发现唯一的问题是我没有足够的数据。然后我抓取了大约 4 万篇文章，但结果仍然不能接受。最近我针对 130 万篇文章进行了训练，结果要好得多。经过进一步分析，这主要是由于 textsum 模型是抽象的而不是提取的。

希望这会有所帮助。对于 130 万和批量设置为 64，我能够在不到一周半的时间内使用 TF 0.9、cuda 7.5 和 cudnn 4 在我的硬件上训练模型。我听说新的 cudnn/cuda 应该更快，但我现在还不能谈这个。

score 0 · Accepted Answer

在我的 i5 处理器上，仅使用 cpu，玩具训练数据集大约需要 60 个小时才能达到 0.17 的值。

使用 8gb 的内存，它消耗了大约 10gb 的额外交换内存。增加内存和 GPU 的使用可能会提供更好的结果。目前我无法从张量板上显示运行平均损失的图像，但我希望您的查询已得到解答。

2 回答 2