tensorflow - 在微调 PEGASUS 中改变权重衰减和预热步骤有什么影响？

翻译自：https://stackoverflow.com/questions/67962020 2021-06-13T19:37:15.133

47 次

我正在使用这个脚本微调 PEGASUS 模型。我目前正在使用 SAMSum 数据集，并且我已经达到了输出没有变得更好的地步。

例子：

实际总结

亚历克西斯和卡特今晚见面了。卡特想再次见面，但亚历克西斯很忙。

最佳输出摘要（基于人工评估）

“卡特和亚历克西斯准备好了。”

第二个最佳输出摘要（基于人工评估）

['卡特和亚历克西斯准备好了，我明天想看看。但']

如上所示，摘要的含义不同，所以我想知道改变体重衰减或热身步骤是否有助于获得更好的结果？如果是这样，增加或减少重量衰减或热身步骤的值会更好吗？

笔记：

我在使用 Colab pro 时使用批量大小 1，最大 GPU 大小为 16280MB，因此使用更大的批量大小不允许使用整个数据集大小，这会导致更差的结果。当前的热身步骤也是 500，我在 2000 个 epoch 中总共有 4000 步，重量衰减为 0.01
我已经为训练/验证/测试使用了不同的组合和大小。默认值为 90/5/5，但我尝试了 90/10/0、70/15/15、70/30/0
在 90/10/0、70/15/15 和 70/30/0 的组合中，始终在 500 步左右产生最佳输出，在 2500 步产生第二最佳输出

任何进一步提高输出的提示将不胜感激，并提前感谢您！

0 回答 0