我正在使用 stable_baselines3 算法进行强化学习。模拟之间的输入大小应该不同(一些模拟涉及代理接收信息的 4 个对象,一些有 9 个对象,...),但在一个给定模拟的所有步骤中,大小是固定的。
代理有没有办法使用 stable_baselines 算法(我目前正在使用 PPO)学习具有不同输入大小的模拟?否则我有什么选择?我已阅读SB3 关于自定义政策的文档,但不明白它是否或如何回答我的问题。
我正在使用 stable_baselines3 算法进行强化学习。模拟之间的输入大小应该不同(一些模拟涉及代理接收信息的 4 个对象,一些有 9 个对象,...),但在一个给定模拟的所有步骤中,大小是固定的。
代理有没有办法使用 stable_baselines 算法(我目前正在使用 PPO)学习具有不同输入大小的模拟?否则我有什么选择?我已阅读SB3 关于自定义政策的文档,但不明白它是否或如何回答我的问题。