3

我有一个实时域,我需要为 N 个参与者分配一个动作,涉及将 O 个对象之一移动到 L 个位置之一。在每个时间步,我都会得到一个奖励 R,表示所有参与者的整体成功。

我有 10 个演员、50 个独特的对象和 1000 个位置,所以对于每个演员,我必须从 500000 个可能的动作中进行选择。此外,我可能会考虑 50 个环境因素,例如每个物体与墙壁的距离,或者它与演员的距离。这导致每个参与者有 25000000 个潜在操作。

几乎所有强化学习算法似乎都不适合这个领域。

首先,它们几乎都涉及评估给定状态下每个动作的预期效用。我的状态空间很大,所以即使我使用函数逼近,使用像 Q-learning 这样原始的东西来收敛一个策略也需要很长时间。即使我可以,在每个时间步的一百万个动作中找到最佳动作也需要很长时间。

其次,大多数算法假设每个参与者只有一个奖励,而我得到的奖励可能会被一个或多个参与者的错误所污染。

我应该如何解决这个问题?我没有找到这样的领域的代码,而且我发现的关于多角色强化学习算法的几篇学术论文没有提供几乎足够的细节来重现所提出的算法。

4

1 回答 1

4

澄清问题

N=10 个演员
O=50 个对象
L=1K 个位置
S=50 个特征

据我了解,您有一个包含 N 个演员、O 个对象、L 个位置和一些墙壁的仓库。目标是确保每个 O 个对象在最短的时间内到达 L 个位置中的任何一个。动作空间包括决定哪个参与者应该在任何时间点将哪个对象移动到哪个位置。状态空间由大约 50 个 X 维环境因素组成,其中包括演员和对象与墙壁和彼此之间的接近程度等特征。因此,乍一看,您有 X S (OL) N个动作值,其中大多数动作维度都是离散的。

如上所述的问题不是强化学习的好候选。然而,目前尚不清楚环境因素到底是什么,以及有多少限制是自我强加的。所以,让我们看一个相关但不同的问题。

解决不同的问题

我们只看一个演员。比如说,它知道自己在仓库中的位置、其他 9 个演员的位置、50 个物体的位置和 1000 个位置。它希望获得最大奖励,当 50 个对象中的每一个都位于 1000 个位置之一时,就会发生这种情况。

假设,我们有一个仓库中位置的 P 维表示。每个位置都可能被焦点中的演员、其他演员之一、物体或位置占据。动作是选择一个对象和一个位置。因此,我们有一个 4 P维状态空间和一个 P 2维动作空间。换句话说,我们有一个 4 P P 2维的价值函数。通过进一步试验表示,对不同参数使用不同精度的编码,并使用选项 2,有可能将问题带入实际领域。

有关在复杂空间设置中学习的示例,我建议阅读 Konidaris 论文12


1 Konidaris, G.、Osentoski, S. 和 Thomas, P.,2008 年。使用傅里叶基础的强化学习中的价值函数逼近。计算机科学系教师出版物系列,第 101 页。

2 Konidaris, G. & Barto, A.,2009 年。使用技能链在持续强化学习领域发现技能 Y. Bengio 等人,编辑。神经信息处理系统的进展,18,pp.1015-1023。

于 2012-01-25T03:28:23.003 回答