reinforcement-learning - 采取行动后没有自然下一个状态的 RL 环境

问问题 2021-12-06T23:02:53.133

14 次

我在编写自定义 RL 环境时遇到了问题，因为它没有通过采取任何行动从一种状态自然过渡到另一种状态。我必须在每个引入随机性的步骤中采样下一个状态。除此之外，还遵循所有其他 MDP 规则。有没有人看过/读过与这个概念相关的任何有趣的论文/想法？

0 回答 0