我正在研究 tensorflow 的 textsum(文本摘要模型)。我已将其运行以使用样本数据训练模型,即从 git 克隆时随模型提供的玩具数据集。我想知道用样本数据集训练模型和解码需要多少时间?它已经花费了 17 多个小时并且仍在运行。
2 回答
不幸的是,对于玩具数据训练集,它只是为您提供一种观察模型整体流程的方法,而不是为您提供体面的结果。这是因为玩具数据集中没有提供足够的数据来提供良好的结果。
时间量很难提供,因为它都与您运行的硬件有关。所以你通常会训练到平均损失在 2 到 1 之间。Xin Pan 表示,对于更大的数据集,你永远不应该低于 1.0 平均损失。因此,在我的 980M 上,我能够在不到一天的时间内使用玩具数据集得到这个。
也就是说,我的结果真的很糟糕,我认为有什么问题。我发现唯一的问题是我没有足够的数据。然后我抓取了大约 4 万篇文章,但结果仍然不能接受。最近我针对 130 万篇文章进行了训练,结果要好得多。经过进一步分析,这主要是由于 textsum 模型是抽象的而不是提取的。
希望这会有所帮助。对于 130 万和批量设置为 64,我能够在不到一周半的时间内使用 TF 0.9、cuda 7.5 和 cudnn 4 在我的硬件上训练模型。我听说新的 cudnn/cuda 应该更快,但我现在还不能谈这个。
在我的 i5 处理器上,仅使用 cpu,玩具训练数据集大约需要 60 个小时才能达到 0.17 的值。
使用 8gb 的内存,它消耗了大约 10gb 的额外交换内存。增加内存和 GPU 的使用可能会提供更好的结果。目前我无法从张量板上显示运行平均损失的图像,但我希望您的查询已得到解答。