我试图提出一个问题作为强化学习问题。我的困难是代理所处的状态是随机变化的。他们必须简单地在他们所处的状态中选择一个动作。我想根据他们因执行动作而获得的奖励来学习所有状态的适当动作。
问题:
这是特定类型的 RL 问题吗?如果没有后继状态,那么如何计算状态的价值?
我试图提出一个问题作为强化学习问题。我的困难是代理所处的状态是随机变化的。他们必须简单地在他们所处的状态中选择一个动作。我想根据他们因执行动作而获得的奖励来学习所有状态的适当动作。
问题:
这是特定类型的 RL 问题吗?如果没有后继状态,那么如何计算状态的价值?