2

我在论文中对 C、H 和 lambda 的参数化有疑问:A Sparse Sampling Algorithm for Near-Optimal Planning in Large Markov Decision Processes(或者对于任何对强化学习,尤其是 lambda 有一定了解的人),在第 5 页。

更准确地说,我没有看到任何迹象表明参数化 H、C 或 lambda 是否依赖于诸如奖励的稀疏性或距离等因素,因为环境可能在未来任意数量的步骤中都有奖励。

例如,假设有一个环境需要一串 7 个动作才能从平均起始状态获得奖励,而另一个环境需要 2 个动作。当用树进行规划时,很明显,给定状态空间的通常指数分支,C(样本大小)和 H(水平长度)应该取决于这些奖励与当前状态相距多远。例如,对于距离平均状态 2 步的人来说,H = 2 可能就足够了。类似地,C 应该依赖于奖励的稀疏性,也就是说,如果有 1000 个可能的状态并且其中只有一个有奖励,那么 C 应该高于如果每 5 个状态就会找到奖励(假设多个状态给出相同的奖励与面向目标的问题)。

所以问题是,我的假设是否正确,或者我在抽样方面遗漏了什么?链接pdf第 5 页上的那些定义没有提及对分支因子或奖励稀疏性的任何依赖。

感谢您的时间。

4

0 回答 0