为代理实施实时操作性条件反射(基于监督奖励/惩罚的学习)的最佳方法是什么?我应该使用神经网络(以及什么类型)?或者是其他东西?
我希望代理能够接受训练,像狗一样遵循命令。这些命令将以触摸屏上的手势形式出现。我希望代理能够接受训练以遵循路径(在连续的 2D 空间中),根据命令进行行为更改(由 FSM 状态转换建模),并执行一系列动作。
代理将处于模拟的物理环境中。
为代理实施实时操作性条件反射(基于监督奖励/惩罚的学习)的最佳方法是什么?我应该使用神经网络(以及什么类型)?或者是其他东西?
我希望代理能够接受训练,像狗一样遵循命令。这些命令将以触摸屏上的手势形式出现。我希望代理能够接受训练以遵循路径(在连续的 2D 空间中),根据命令进行行为更改(由 FSM 状态转换建模),并执行一系列动作。
代理将处于模拟的物理环境中。
强化学习是一个很好的机器学习算法来解决你的问题。
基本的强化学习模型包括:
S
(你有一个以某种方式离散的二维空间,这是狗的当前位置,如果你想做连续的二维空间,你可能需要一个神经网络来作为值函数映射器。)A
(你提到狗执行一系列动作,例如移动、旋转)r
转换的标量立即奖励的规则(到达目标位置时,您可能希望给狗一个大奖励,而中间里程碑也欢迎小奖励)P
和狗可以看到的 4 个相邻单元格的示例。)要找到最优策略,您可以从无模型技术 - q-learning开始。