我是强化学习和尝试训练 RL 代理的新手。
我对奖励公式有疑问,从给定状态来看,如果代理采取了好的行动,我会给予积极的奖励,如果行动不好,我会给予消极的奖励。因此,如果我在代理采取好的行动时给予非常高的正奖励,例如正值是负奖励的 100 倍,它会在训练期间帮助代理吗?
直觉上我觉得这会有助于智能体的训练,但是这种倾斜的奖励结构会有什么弊端吗?
我是强化学习和尝试训练 RL 代理的新手。
我对奖励公式有疑问,从给定状态来看,如果代理采取了好的行动,我会给予积极的奖励,如果行动不好,我会给予消极的奖励。因此,如果我在代理采取好的行动时给予非常高的正奖励,例如正值是负奖励的 100 倍,它会在训练期间帮助代理吗?
直觉上我觉得这会有助于智能体的训练,但是这种倾斜的奖励结构会有什么弊端吗?
好吧,通常我(基于我的经验的个人意见)认为奖励应该与它对代理的影响有关。如果问题是奖励稀少,您可以查看此Arxiv Insights Youtube以了解如何解决该问题。
我可以举一个可能具有挑战性的例子:如果奖励比坏奖励更积极,那么代理可能不会太在意,如果它冒着最终进入负奖励状态以获得大的正奖励的风险。所以你最终可能会遇到一个有风险的代理人。