我想设计一个 5x5 的网格世界,其中代理可以移动以尝试使用 RL 算法。直观地说,我将通过元组 (x,y) 来描述状态,即在 python 中使用列表 [x,y] 或 numpy 数组。但是,在实现大多数算法时,这会变得很麻烦。例如,如果我想要一个带有条目 Q(s,a) 的 Q 值矩阵,我不能只使用行索引对应于状态的 numpy 矩阵,而是必须使用更复杂的东西。
我的问题是仅枚举所有状态(即 1、2、...、25)而不是使用 (x,y) 是否是标准的,或者是否有另一种巧妙的方式来表示状态,从而使处理它们也变得容易。