python-3.x - 存储来自 RLlib 训练的策略部署的观察、动作、奖励元组

翻译自：https://stackoverflow.com/questions/68447592 2021-07-19T22:19:38.960

28 次

0

我正在尝试存储来自 RLlib 推出操作的观察、动作和奖励元组。似乎推出功能仅在代理与环境交互时跟踪有关代理奖励的信息。有谁知道如何存储所有这些信息？我查看了 rllib 的rollout.py 文件，但看起来实际存储此信息的功能隐藏在 Ray 的分布式计算功能中。

0 回答 0