0

我正在为 RL 使用稳定基线的 PPO2。我的观察空间的形状为 (100,10),我想用 LSTM 替换策略中使用的网络,你知道这是否可能吗?

谢谢

4

0 回答 0