我有兴趣使用深度强化学习,以便在(太多)可能性和一些(必需的)中间采场(例如,购买咖啡或加油)中找到一条独特的最佳回家路径。
此外,我想在代理不知道环境的“模型”并且代理根本无法尝试所有可能的状态和动作组合的情况下应用它。即需要在 Q 值函数(和/或策略)中使用近似技术。
我已经阅读过处理此类案例的方法——如果有的话,奖励是稀疏的和二元的——比如蒙特卡洛树搜索(根据我的理解,这意味着某种建模和规划)或事后经验回放(HER) ,应用DDPG的思想。
但是有这么多不同类型的算法需要考虑,我有点困惑什么是最好的开始。我知道这是一个难题,也许问这个问题太天真了,但是有没有什么明确、直接、众所周知的方法来解决我想面对的问题?
非常感谢!
马蒂亚斯