lstm - 如何在 rllib 中使用 Marwil 为 LSTM 配置批次

翻译自：https://stackoverflow.com/questions/58741052 2019-11-07T02:16:25.687

158 次

我正在尝试在 rllib 中使用 Marwil 训练 lstm 策略。我找不到任何关于如何为这个问题设置批次的示例。如果没有 lstm 组件，我可以使用此处的说明训练一个 marwil 模型。

https://ray.readthedocs.io/en/latest/rllib-offline.html

但是，当我尝试添加 lstm 组件时，我收到一个关于

“如果定义了状态输入，则必须给出 seq_lens 张量”

我认为这意味着我需要将一系列 RNN 长度传递给它。很公平，我定义

prev_actions -> 剧集中所有 N 点的 20 个过去动作的列表 prev_rewards -> 剧集中所有 N 点的 20 个过去奖励的列表 prev_observations -> 剧集中所有 N 点的 20 个过去观察的列表 seq_lens -> [20 , 20, 20, ..., 20] 为情节中的所有 N 个点

在批处理生成器 API 中，但是一旦我尝试运行 Marwil 训练器，我仍然会收到错误

如果定义了状态输入，则必须给出 seq_lens 张量

有人对此有任何见解吗？

谢谢！

lstm - 如何在 rllib 中使用 Marwil 为 LSTM 配置批次

0 回答 0

Related

Reference