0

已经将轨迹序列(即 (s, a, r, s', ...) 元组)转换为 SampleBatch 对象,如何在离线训练 DQN 时将对象作为输入传递给配置。Ray 官方文档有 json 批处理方式,而不是 SampleBatch 格式。

4

0 回答 0