algorithm - 使用线性函数逼近的 Q 学习

Question

我想获得一些有关如何使用具有函数逼近的 Q 学习算法的有用说明。对于基本的 Q 学习算法，我找到了一些例子，我想我确实理解了。如果使用函数逼近，我会遇到麻烦。有人可以通过一个简短的例子给我一个解释它是如何工作的吗？

我知道的：

但我找不到任何有用的教程如何使用它。

感谢帮助！

score 2 · Accepted Answer

在我看来，这是最好的参考之一。它用几个伪代码示例编写得很好。在您的情况下，您可以通过忽略资格跟踪来简化算法。

此外，根据我的经验并根据您的用例，Q-Learning 可能效果不佳（有时它需要大量的经验数据）。例如，您可以尝试 Fitted-Q 值，这是一种批处理算法。

1 回答 1