我是健身房 RL 框架的初学者,目前正在使用健身房建立强化学习环境。我对如何设置观察空间感到完全困惑。由于我的问题是一个二元分类问题,所以我对动作空间没有任何问题。它是离散的(2)。
对于观察,代理从环境中获得 4 个输入,所有四个都是数组,以下是这些数组的形状。
Observation 1: (150,) --> i.e. array([ 0, 0, 0, 0,..., 2, 1, 21],dtype=int32)
Observation 2: (614, 2) --> i.e. array([[ 0.10108147, 0.27550402],[-0.26806018, -0.42727235],...,[-0.24262361, 0.04642992]])
Observation 3: TensorShape([614, 614]) --> i.e. <tensorflow.python.framework.sparse_tensor.SparseTensor at 0x7f2d2b7bc190>
Observation 4: (614,) --> i.e. array([0, 0, 0, 0, 0,...,0, 0])
谁能帮我定义上述 4 个观察的观察空间?