0

我在编写自定义 RL 环境时遇到了问题,因为它没有通过采取任何行动从一种状态自然过渡到另一种状态。我必须在每个引入随机性的步骤中采样下一个状态。除此之外,还遵循所有其他 MDP 规则。有没有人看过/读过与这个概念相关的任何有趣的论文/想法?

4

0 回答 0