algorithm - 操作性条件反射算法？

Question

为代理实施实时操作性条件反射（基于监督奖励/惩罚的学习）的最佳方法是什么？我应该使用神经网络（以及什么类型）？或者是其他东西？

我希望代理能够接受训练，像狗一样遵循命令。这些命令将以触摸屏上的手势形式出现。我希望代理能够接受训练以遵循路径（在连续的 2D 空间中），根据命令进行行为更改（由 FSM 状态转换建模），并执行一系列动作。

代理将处于模拟的物理环境中。

score 2 · Accepted Answer

强化学习是一个很好的机器学习算法来解决你的问题。

基本的强化学习模型包括：

在此处输入图像描述

要找到最优策略，您可以从无模型技术 - q-learning开始。

1 回答 1