我希望构建或调整一个最好基于 RL 理论的模型,以解决以下问题。非常感谢任何指导或指示。
我有一个连续的动作空间,可以从 10-100(含)范围内选择动作。每个动作都与一定的强化值相关联,根据价值函数,范围从 0 到 1(也包括在内)。到目前为止,一切都很好。这就是我开始思考的地方:
并发症1:
价值函数V根据给定动作x和目标动作A之间的距离将动作映射到强化。两者之间的距离越小,强化越大(即强化与 abs( A - x ) 成反比。但是,价值函数仅对于接近A的动作非零(abs( A - x ) 较小)比,说,epsilon)和其他地方为零。所以:
**V**
与 成正比1 / abs(**A** - **x**)
,abs(**A** - **x**) < epsilon
并且
**V** = 0
为abs(**A** - **x**) > epsilon
.
并发症2:
我不知道每一步都采取了什么行动。我大致知道它们是什么,因此我知道它们属于x +/- sigma 范围,但不能将单个动作值与我收到的强化准确关联。
我想解决的确切问题如下:我有一系列嘈杂的动作估计和精确的强化值(例如,在试验 1 中,我可能有大约 15-30 的x和 0 的强化;在试验 2 中,我可能有x ~25-40 和 0 的强化;在试验 3 中,x为 ~80-95 和 0.6 的强化。)我想构建一个模型,该模型表示每个步骤后目标动作A的最可能位置的估计,可能根据一些学习率参数对新信息进行加权(因为确定性会随着样本的增加而增加)。