我正在使用 Tensorflow 0.9 并使用 Textsum 模型进行训练。我收集了大约 130 万篇文章,并且已经针对它们进行了大约一周的训练。平均损失约为 1.75 - 2.1。我决定停止并运行 eval,因为我的理解是我的平均损失应该接近我在训练中得到的损失。当我运行评估时,我看到平均损失为 2.6 到 2.9。我只是想知道在执行此运行时应该看到什么。
我是否正确使用了这种培训/评估分析?我对深度学习有些陌生,并试图将其用作学习的一种方式,并通过其他一些阅读,似乎这两者之间的差距可能有点大。
是否有针对不同数据集进行评估的标准容差以及平均损失的差异应该是多少?在这一点上,我不确定我是应该继续训练还是暂时停在这里,并尝试弄清楚如何让它在 tensorflow 服务中运行。我不想过度拟合模型,但从学术角度来看,假设我通过训练进行了过度拟合。我需要做什么来“修复”它?您现在是只是简单地获取更多文章并输入该数据作为训练,还是模型本质上已损坏且无法使用?