artificial-intelligence - 奖励结构的制定

Question

我是强化学习和尝试训练 RL 代理的新手。

我对奖励公式有疑问，从给定状态来看，如果代理采取了好的行动，我会给予积极的奖励，如果行动不好，我会给予消极的奖励。因此，如果我在代理采取好的行动时给予非常高的正奖励，例如正值是负奖励的 100 倍，它会在训练期间帮助代理吗？

直觉上我觉得这会有助于智能体的训练，但是这种倾斜的奖励结构会有什么弊端吗？

score 1 · Accepted Answer

好吧，通常我（基于我的经验的个人意见）认为奖励应该与它对代理的影响有关。如果问题是奖励稀少，您可以查看此Arxiv Insights Youtube以了解如何解决该问题。

我可以举一个可能具有挑战性的例子：如果奖励比坏奖励更积极，那么代理可能不会太在意，如果它冒着最终进入负奖励状态以获得大的正奖励的风险。所以你最终可能会遇到一个有风险的代理人。

1 回答 1