16

所有强化学习我读过的算法通常应用于具有固定数量动作的单个代理。是否有任何强化学习算法可以在考虑可变数量的动作的同时做出决策?例如,您将如何在一个玩家控制 N 个士兵的计算机游戏中应用 RL 算法,并且每个士兵根据其条件有随机数量的动作?您无法为全局决策者(即“将军”)制定固定数量的行动,因为随着士兵的创建和杀死,可用的行动会不断变化。而且你不能在士兵级别制定固定数量的行动,因为士兵的行动是基于其直接环境的条件。如果一个士兵看不到对手,那么它可能只能走路,

4

3 回答 3

5

你所描述的没有什么不寻常的。强化学习是一种寻找马尔可夫决策过程价值函数的方法。在 MDP 中,每个状态都有自己的一组动作。要继续使用强化学习应用程序,您必须清楚地定义问题中的状态、动作和奖励。

于 2011-07-28T21:46:12.177 回答
2

如果您根据某些条件对每个士兵有多个可用或不可用的操作,那么您仍然可以将其建模为从一组固定的操作中进行选择。例如:

  • 为每个士兵的全套动作中的每一个创造一个“效用价值”
  • 选择价值最高的操作,忽略那些在给定时间不可用的操作

如果您有多个可能的目标,则适用相同的原则,除了这次您对效用函数建模以将目标指定作为附加参数,并多次运行评估函数(每个目标一个)。您选择具有最高“攻击效用”的目标。

于 2011-03-07T11:15:27.803 回答
0

在连续域动作空间中,策略 NN 通常会输出均值和/或方差,然后您可以从中对动作进行采样,假设它遵循某个分布。

于 2020-05-07T07:00:33.380 回答