1

我有一个问题,我想将其表示为大规模马尔可夫决策过程。我希望有一个可以预测状态转换和奖励的模型,但我想推断价值函数和策略函数。价值函数和“Q”函数的近似推断以及通过线性模型或神经网络会做得很好。

一个关键要求:我将扩大我的状态空间,使其无法在内存中表示。我需要通过表征状态的特征值来表示状态。

是否有库可以帮助我推断这种大规模环境中的价值和政策功能?我遇到的大多数马尔可夫决策过程库似乎都面向非常小规模的问题和精确的推理。

如果没有交钥匙解决方案,是否有人对如何构建这样一个系统有建议?

4

1 回答 1

1

您可以使用TensorFlow 开发人员支持的TF-Agents,并为 Q 值函数逼近预先实现了 DQN 代理。您需要做的主要事情是为您的特定环境写下代码,该代码与代理一起构成您的 MDP。

于 2021-02-13T13:38:02.570 回答