1

我正在尝试实施自定义 openai 健身房环境。动作空间和观察空间都包含值列表和离散空间的组合。我是否正确建模?例如:

        self.action_space = spaces.Tuple((
                                            spaces.Tuple((self.actions)),                                  
                                            spaces.Discrete(101)                                                
                                        ))

其中 self.actions 是可能动作的值列表,对于每个可能没有额外的离散动作,范围为 100。观察空间与值列表和离散值的组合相同。这是建模的正确方法吗?另外,我使用 keras-rl 来运行代理,它需要:

        nb_actions = env.action_space.n and
        model.add(Flatten(input_shape=(1,) + env.observation_space.shape))

如何为元组空间实现 n 和 shape?我试过:nb_actions = len(env.action_space.spaces) 这和n一样吗?如何替换 env.observation_space.shape?

4

0 回答 0