我正在使用这个脚本微调 PEGASUS 模型。我目前正在使用 SAMSum 数据集,并且我已经达到了输出没有变得更好的地步。
例子:
实际总结
亚历克西斯和卡特今晚见面了。卡特想再次见面,但亚历克西斯很忙。
最佳输出摘要(基于人工评估)
“卡特和亚历克西斯准备好了。”
第二个最佳输出摘要(基于人工评估)
['卡特和亚历克西斯准备好了,我明天想看看。但']
如上所示,摘要的含义不同,所以我想知道改变体重衰减或热身步骤是否有助于获得更好的结果?如果是这样,增加或减少重量衰减或热身步骤的值会更好吗?
笔记:
我在使用 Colab pro 时使用批量大小 1,最大 GPU 大小为 16280MB,因此使用更大的批量大小不允许使用整个数据集大小,这会导致更差的结果。当前的热身步骤也是 500,我在 2000 个 epoch 中总共有 4000 步,重量衰减为 0.01
我已经为训练/验证/测试使用了不同的组合和大小。默认值为 90/5/5,但我尝试了 90/10/0、70/15/15、70/30/0
在 90/10/0、70/15/15 和 70/30/0 的组合中,始终在 500 步左右产生最佳输出,在 2500 步产生第二最佳输出
任何进一步提高输出的提示将不胜感激,并提前感谢您!