我在概念上理解它。你有一个代理和一个环境。然后你有一组状态,每个状态都有一个值。然后代理选择“探索”或“利用”并根据发生的情况修改其知识。
我的问题是我似乎无法弄清楚如何将其实际应用于代码或任何实际问题。每次我查找它时,我最终都会得到相同的几个方程,而没有解释如何使用它们。
我正在尝试为俄罗斯方块编写 RL 代理,但我似乎无法弄清楚。如果有人可以 ELI5 那就太好了。
我怎么知道应该把什么作为一个状态?行动呢?调整值所涉及的实际数学是什么?这一切都太混乱了。
如果有人可以帮助我,我将不胜感激。谢谢 :)