1

我正在尝试在 rllib 中使用 Marwil 训练 lstm 策略。我找不到任何关于如何为这个问题设置批次的示例。如果没有 lstm 组件,我可以使用此处的说明训练一个 marwil 模型。

https://ray.readthedocs.io/en/latest/rllib-offline.html

但是,当我尝试添加 lstm 组件时,我收到一个关于

“如果定义了状态输入,则必须给出 seq_lens 张量”

我认为这意味着我需要将一系列 RNN 长度传递给它。很公平,我定义

prev_actions -> 剧集中所有 N 点的 20 个过去动作的列表 prev_rewards -> 剧集中所有 N 点的 20 个过去奖励的列表 prev_observations -> 剧集中所有 N 点的 20 个过去观察的列表 seq_lens -> [20 , 20, 20, ..., 20] 为情节中的所有 N 个点

在批处理生成器 API 中,但是一旦我尝试运行 Marwil 训练器,我仍然会收到错误

如果定义了状态输入,则必须给出 seq_lens 张量

有人对此有任何见解吗?

谢谢!

4

0 回答 0