7

我希望构建或调整一个最好基于 RL 理论的模型,以解决以下问题。非常感谢任何指导或指示。

我有一个连续的动作空间,可以从 10-100(含)范围内选择动作。每个动作都与一定的强化值相关联,根据价值函数,范围从 0 到 1(也包括在内)。到目前为止,一切都很好。这就是我开始思考的地方:

并发症1:

价值函数V根据给定动作x和目标动作A之间的距离将动作映射到强化。两者之间的距离越小,强化越大(即强化与 abs( A - x ) 成反比。但是,价值函数仅对于接近A的动作非零(abs( A - x ) 较小)比,说,epsilon)和其他地方为零。所以:

**V**与 成正比1 / abs(**A** - **x**)abs(**A** - **x**) < epsilon并且

**V** = 0abs(**A** - **x**) > epsilon.

并发症2:

我不知道每一步都采取了什么行动。我大致知道它们是什么,因此我知道它们属于x +/- sigma 范围,但不能将单个动作值与我收到的强化准确关联。

我想解决的确切问题如下:我有一系列嘈杂的动作估计和精确的强化值(例如,在试验 1 中,我可能有大约 15-30 的x和 0 的强化;在试验 2 中,我可能有x ~25-40 和 0 的强化;在试验 3 中,x为 ~80-95 和 0.6 的强化。)我想构建一个模型,该模型表示每个步骤后目标动作A的最可能位置的估计,可能根据一些学习率参数对新信息进行加权(因为确定性会随着样本的增加而增加)。

4

1 回答 1

1

这篇可能相关的期刊文章:它解决了在存在噪声和不一致奖励的情况下的延迟奖励和稳健学习。

“罕见的神经相关性实现了具有延迟奖励和干扰的机器人调节”

具体来说,他们追踪(记住)在奖励事件之前触发了哪些突触(或动作)并强化所有这些突触,其中强化的数量随着动作和奖励之间的时间而衰减。

个人奖励事件将奖励在奖励(或执行的动作)之前触发的任何突触,包括那些与奖励无关的突触。然而,在合适的学习率下,这应该会在几次迭代中稳定下来,只有期望的动作会得到持续的奖励和强化。

于 2016-03-08T23:26:36.223 回答