0

我正在尝试存储来自 RLlib 推出操作的观察、动作和奖励元组。似乎推出功能仅在代理与环境交互时跟踪有关代理奖励的信息。有谁知道如何存储所有这些信息?我查看了 rllib 的rollout.py 文件,但看起来实际存储此信息的功能隐藏在 Ray 的分布式计算功能中。

4

0 回答 0