machine-learning - 给定嘈杂动作和非单调强化的结果空间学习

Question

我希望构建或调整一个最好基于 RL 理论的模型，以解决以下问题。非常感谢任何指导或指示。

我有一个连续的动作空间，可以从 10-100（含）范围内选择动作。每个动作都与一定的强化值相关联，根据价值函数，范围从 0 到 1（也包括在内）。到目前为止，一切都很好。这就是我开始思考的地方：

并发症1：

价值函数V根据给定动作x和目标动作A之间的距离将动作映射到强化。两者之间的距离越小，强化越大（即强化与 abs( A - x ) 成反比。但是，价值函数仅对于接近A的动作非零（abs( A - x ) 较小）比，说，epsilon）和其他地方为零。所以：

**V**与成正比1 / abs(**A** - **x**)，abs(**A** - **x**) < epsilon并且

**V** = 0为abs(**A** - **x**) > epsilon.

并发症2：

我不知道每一步都采取了什么行动。我大致知道它们是什么，因此我知道它们属于x +/- sigma 范围，但不能将单个动作值与我收到的强化准确关联。

我想解决的确切问题如下：我有一系列嘈杂的动作估计和精确的强化值（例如，在试验 1 中，我可能有大约 15-30 的x和 0 的强化；在试验 2 中，我可能有x ~25-40 和 0 的强化；在试验 3 中，x为 ~80-95 和 0.6 的强化。）我想构建一个模型，该模型表示每个步骤后目标动作A的最可能位置的估计，可能根据一些学习率参数对新信息进行加权（因为确定性会随着样本的增加而增加）。

score 1 · Accepted Answer

这篇可能相关的期刊文章：它解决了在存在噪声和不一致奖励的情况下的延迟奖励和稳健学习。

“罕见的神经相关性实现了具有延迟奖励和干扰的机器人调节”

具体来说，他们追踪（记住）在奖励事件之前触发了哪些突触（或动作）并强化所有这些突触，其中强化的数量随着动作和奖励之间的时间而衰减。

个人奖励事件将奖励在奖励（或执行的动作）之前触发的任何突触，包括那些与奖励无关的突触。然而，在合适的学习率下，这应该会在几次迭代中稳定下来，只有期望的动作会得到持续的奖励和强化。

machine-learning - 给定嘈杂动作和非单调强化的结果空间学习

1 回答 1

Related

Reference