1

我有一个使用行为克隆 (BC) 训练的推荐系统,其中离线数据使用监督学习模型生成,使用此处描述的方法转换为批处理格式。目前,该模型正在探索使用电子贪婪策略。我想从 BC 迁移到 MARWIL 更改测试版。

有几种方法可以做到这一点:

  1. 转换用于训练 BC 算法的数据以及代理的新数据,并使用 MARWIL 从头开始​​重新训练。
  2. 转换代理生成的新数据,并将其与先前用于训练 BC 算法的转换数据放在一起,使用输入参数,执行类似于此处描述的操作,然后使用 MARWIL 从头开始​​重新训练。
  3. 转换代理生成的新数据,并将其与之前用于训练 BC 算法的转换数据放在一起,使用输入参数,执行类似于此处描述的操作,并使用恢复的 BC 代理使用 MARWIL 重新训练。问题:

以下选项1:

鉴于新的数据切片与前一个相比非常小,模型会学到新的东西吗?当我们停止使用原始数据?

以下选项2:

鉴于新的数据切片与前一个相比非常小,模型会学到新的东西吗?当我们停止使用原始数据?这种方法适用于与新剧集 id 相关的轨迹,但它会扩展原始批次中已经存在的剧集的轨迹吗?

遵循选项 3:

鉴于新的数据切片与前一个相比非常小,模型会学到新的东西吗?当我们停止使用原始数据?这种方法适用于与新剧集 id 相关的轨迹,但它会扩展原始批次中已经存在的剧集的轨迹吗?重新训练将使用新数据点更新网络的权重,但要做到这一点,我们应该使用多少次迭代?如何防止灾难性遗忘?

4

0 回答 0