2

我一直在研究分层强化学习问题,虽然很多论文提出了学习策略的有趣方法,但他们似乎都假设他们事先知道描述领域中动作的图结构。例如, Dietterich的 MAXQ Method for Hierarchial Reinforcement Learning描述了一个简单出租车领域的复杂动作和子任务图,但没有描述这个图是如何被发现的。您将如何学习此图的层次结构,而不仅仅是策略?

4

3 回答 3

1

本文介绍了一种很好的起点方法:

N. Mehta、S. Ray、P. Tadepalli 和 T. Dietterich。自动发现和传输 MAXQ 层次结构。在机器学习国际会议上,2008 年。

http://web.engr.oregonstate.edu/~mehtane/papers/hi-mat.pdf

于 2010-10-06T23:25:32.073 回答
1

在 Dietterich 的 MAXQ 中,图形是手动构建的。它被认为是系统设计人员的任务,就像提出表示空间和奖励函数一样。

根据您要实现的目标,您可能希望自动分解状态空间、学习相关功能或将经验从简单任务转移到更复杂的任务。

我建议您开始阅读与您链接的 MAXQ 相关的论文。在不知道你到底想要达到什么目标的情况下,我不能非常规范(而且我并不是真正了解当前所有 RL 研究),但你可能会在 Luo、Bell 和 McCollum 的工作中找到相关的想法,或者Madden & Howley 的论文。

于 2010-09-27T18:16:37.370 回答
0

假设有这个代理在那里做事。你不知道它的内部目标(任务图)。你如何推断​​它的目标?

在某种程度上,这是不可能的。就像我不可能知道当你放下那个盒子时你的目标是什么:也许你累了,也许你看到了一只杀人蜂,也许你不得不撒尿......

您正在尝试对代理的内部目标结构进行建模。为了做到这一点,您需要某种指导,了解可能的目标集是什么,以及这些目标是如何由行动表示的。在研究文献中,这个问题已经在“计划识别”的术语下进行了研究,也使用了 POMDP(部分可观察马尔可夫决策过程),但是这两种技术都假设您确实了解其他智能体的目标。

如果您对它的目标一无所知,那么您所能做的就是推断上述模型之一(这就是我们人类所做的。我假设其他人也有与我相同的目标。我从来没有想过,“哦,他掉了他的笔记本电脑,他必须准备好下蛋” cse,他是一个人。)或将其建模为一个黑匣子:一个简单的状态到动作函数,然后根据需要添加内部状态(嗯,一定有人写过论文关于这个,但我不知道是谁)。

于 2010-09-27T10:30:06.390 回答