2

我在概念上理解它。你有一个代理和一个环境。然后你有一组状态,每个状态都有一个值。然后代理选择“探索”或“利用”并根据发生的情况修改其知识。

我的问题是我似乎无法弄清楚如何将其实际应用于代码或任何实际问题。每次我查找它时,我最终都会得到相同的几个方程,而没有解释如何使用它们。

我正在尝试为俄罗斯方块编写 RL 代理,但我似乎无法弄清楚。如果有人可以 ELI5 那就太好了。

我怎么知道应该把什么作为一个状态?行动呢?调整值所涉及的实际数学是什么?这一切都太混乱了。

如果有人可以帮助我,我将不胜感激。谢谢 :)

4

1 回答 1

1

强化学习用于您不知道正确答案的情况,但给出答案可以很容易地判断它是否正确。

查找有限或平滑连续状态空间的问题,例如直升机控制。在这个特定示例中,您可以使用简化的物理模拟来教代理如何执行任务,而无需为其灌输明确的规则。

如果你用谷歌搜索强化学习在俄罗斯方块中的应用,你会发现关于这个主题的文章很多。

要了解什么构成状态、动作等,请阅读 Sutton 和 Barton 的“强化学习”。您可以在网上免费找到它。

于 2013-11-12T20:58:50.593 回答