offline - 改进/重新训练离线模型的正确方法

Question

我有一个使用行为克隆 (BC) 训练的推荐系统，其中离线数据使用监督学习模型生成，使用此处描述的方法转换为批处理格式。目前，该模型正在探索使用电子贪婪策略。我想从 BC 迁移到 MARWIL 更改测试版。

有几种方法可以做到这一点：

转换用于训练 BC 算法的数据以及代理的新数据，并使用 MARWIL 从头开始重新训练。
转换代理生成的新数据，并将其与先前用于训练 BC 算法的转换数据放在一起，使用输入参数，执行类似于此处描述的操作，然后使用 MARWIL 从头开始重新训练。
转换代理生成的新数据，并将其与之前用于训练 BC 算法的转换数据放在一起，使用输入参数，执行类似于此处描述的操作，并使用恢复的 BC 代理使用 MARWIL 重新训练。问题：

以下选项1：

鉴于新的数据切片与前一个相比非常小，模型会学到新的东西吗？当我们停止使用原始数据？

以下选项2：

鉴于新的数据切片与前一个相比非常小，模型会学到新的东西吗？当我们停止使用原始数据？这种方法适用于与新剧集 id 相关的轨迹，但它会扩展原始批次中已经存在的剧集的轨迹吗？

遵循选项 3：

鉴于新的数据切片与前一个相比非常小，模型会学到新的东西吗？当我们停止使用原始数据？这种方法适用于与新剧集 id 相关的轨迹，但它会扩展原始批次中已经存在的剧集的轨迹吗？重新训练将使用新数据点更新网络的权重，但要做到这一点，我们应该使用多少次迭代？如何防止灾难性遗忘？

0 回答 0