machine-learning - 任意大动作/状态空间中的强化学习

Question

我有兴趣使用深度强化学习，以便在（太多）可能性和一些（必需的）中间采场（例如，购买咖啡或加油）中找到一条独特的最佳回家路径。

此外，我想在代理不知道环境的“模型”并且代理根本无法尝试所有可能的状态和动作组合的情况下应用它。即需要在 Q 值函数（和/或策略）中使用近似技术。

我已经阅读过处理此类案例的方法——如果有的话，奖励是稀疏的和二元的——比如蒙特卡洛树搜索（根据我的理解，这意味着某种建模和规划）或事后经验回放（HER），应用DDPG的思想。

但是有这么多不同类型的算法需要考虑，我有点困惑什么是最好的开始。我知道这是一个难题，也许问这个问题太天真了，但是有没有什么明确、直接、众所周知的方法来解决我想面对的问题？

非常感谢！

马蒂亚斯

score 0 · Accepted Answer

如果最终目的地在这种情况下（家）是固定的，您可以进行动态搜索，因为由于环境的变化，a* 将不起作用。如果你想使用深度学习算法，那么由于大动作/状态空间而选择具有经验回放的 a3c。它能够处理复杂的问题。

1 回答 1