python - PyBrains Q-Learning 迷宫示例。国家价值观和全球政策

Question

我正在尝试 PyBrains 迷宫示例

我的设置是：

envmatrix = [[...]]
env = Maze(envmatrix, (1, 8))
task = MDPMazeTask(env)
table = ActionValueTable(states_nr, actions_nr)
table.initialize(0.)
learner = Q()
agent = LearningAgent(table, learner)
experiment = Experiment(task, agent)
for i in range(1000):
    experiment.doInteractions(N)
    agent.learn()
    agent.reset()

现在，我对我得到的结果没有信心

右下角 (1, 8) 为吸收状态

我在 mdp.py 中添加了额外的惩罚状态 (1, 7)：

def getReward(self):
    """ compute and return the current reward (i.e. corresponding to the last action performed) """
    if self.env.goal == self.env.perseus:
        self.env.reset()
        reward = 1
    elif self.env.perseus == (1,7):
        reward = -1000
    else:
        reward = 0
    return reward

现在，我不明白，经过 1000 次运行和每次运行期间的 200 次交互后，代理如何认为我的惩罚状态是好的状态（您可以看到正方形是白色的）

我想看看最终运行后每个州和政策的价值。我怎么做？我发现这一行table.params.reshape(81,4).max(1).reshape(9,9)返回了一些值，但我不确定这些值是否对应于值函数的值

score 0 · Accepted Answer

现在我添加了另一个约束 - 通过添加 maze.py 使代理始终从同一位置开始：(1, 1)self.initPos = [(1, 1)]现在我在运行 1000 次后得到这种行为，每次运行有 200 次交互：

现在哪种有意义 - 机器人试图从另一侧绕过墙壁，避免状态 (1, 7)

所以，我得到了奇怪的结果，因为代理过去常常从随机位置开始，其中还包括惩罚状态

编辑：

另一点是，如果希望随机生成代理，则确保它不是在可惩罚状态下生成

def _freePos(self):
    """ produce a list of the free positions. """
    res = []
    for i, row in enumerate(self.mazeTable):
        for j, p in enumerate(row):
            if p == False:
                if self.punishing_states != None:
                    if (i, j) not in self.punishing_states:
                        res.append((i, j))
                else:
                    res.append((i, j))
    return res

此外，似乎table.params.reshape(81,4).max(1).reshape(9,9)从值函数返回每个状态的值

python - PyBrains Q-Learning 迷宫示例。国家价值观和全球政策

1 回答 1

Related

Reference