2

我有兴趣使用深度强化学习,以便在(太多)可能性和一些(必需的)中间采场(例如,购买咖啡或加油)中找到一条独特的最佳回家路径。

此外,我想在代理不知道环境的“模型”并且代理根本无法尝试所有可能的状态和动作组合的情况下应用它。即需要在 Q 值函数(和/或策略)中使用近似技术。

我已经阅读过处理此类案例的方法——如果有的话,奖励是稀疏的和二元的——比如蒙特卡洛树搜索(根据我的理解,这意味着某种建模和规划)或事后经验回放(HER) ,应用DDPG的思想。

但是有这么多不同类型的算法需要考虑,我有点困惑什么是最好的开始。我知道这是一个难题,也许问这个问题太天真了,但是有没有什么明确、直接、众所周知的方法来解决我想面对的问题?

非常感谢!

马蒂亚斯

4

1 回答 1

0

如果最终目的地在这种情况下(家)是固定的,您可以进行动态搜索,因为由于环境的变化,a* 将不起作用。如果你想使用深度学习算法,那么由于大动作/状态空间而选择具有经验回放的 a3c。它能够处理复杂的问题

于 2019-05-29T22:05:32.107 回答