1

我试图提出一个问题作为强化学习问题。我的困难是代理所处的状态是随机变化的。他们必须简单地在他们所处的状态中选择一个动作。我想根据他们因执行动作而获得的奖励来学习所有状态的适当动作。

问题:

这是特定类型的 RL 问题吗?如果没有后继状态,那么如何计算状态的价值?

4

2 回答 2

2

如果状态真的是随机变化的,如果动作和后面的状态没有关系,那么你所能做的就是记录每个动作和每个状态的奖励,然后平均。

于 2013-09-10T19:22:40.520 回答
0

所以我发现这将被称为蒙特卡洛强化学习问题。不是根据可以转换到的状态的值将值与状态相关联,而是根据直接给定状态的策略的结果将值与状态相关联。这对于状态转换函数的动态未知或高度随机且难以建模的情况很有用。

https://en.wikipedia.org/wiki/Reinforcement_learning

于 2013-09-11T05:58:35.830 回答