1

为代理实施实时操作性条件反射(基于监督奖励/惩罚的学习)的最佳方法是什么?我应该使用神经网络(以及什么类型)?或者是其他东西?

我希望代理能够接受训练,像狗一样遵循命令。这些命令将以触摸屏上的手势形式出现。我希望代理能够接受训练以遵循路径(在连续的 2D 空间中),根据命令进行行为更改(由 FSM 状态转换建模),并执行一系列动作。

代理将处于模拟的物理环境中。

4

1 回答 1

2

强化学习是一个很好的机器学习算法来解决你的问题。

基本的强化学习模型包括:

  • 一组环境状态S(你有一个以某种方式离散的二维空间,这是狗的当前位置,如果你想做连续的二维空间,你可能需要一个神经网络来作为值函数映射器。)
  • 一组动作A(你提到狗执行一系列动作,例如移动、旋转)
  • 状态之间的转换规则(你的狗的位置转换可以通过 FSM 建模)
  • 确定r转换的标量立即奖励的规则(到达目标位置时,您可能希望给狗一个大奖励,而中间里程碑也欢迎小奖励)
  • 描述代理观察的规则。(狗的视野可能有限,例如,只能看到 4 或 8 个相邻单元格,下图是显示狗的当前位置P和狗可以看到的 4 个相邻单元格的示例。)

在此处输入图像描述

要找到最优策略,您可以从无模型技术 - q-learning开始。

于 2012-11-24T21:52:24.533 回答