0

我正在学习强化学习课程,很多时候,学习价值函数权重的策略参数基本上归结为使用随机梯度下降 (SGD)。代理被表示为具有一系列状态 S_t、动作 A_t,并在该序列的时间 t 获得奖励 R_t。

我对 SGD 的一般理解,例如,当在神经网络上使用训练数据集时,我们假设小批量中的数据是独立同分布的,这是有道理的,因为在某种程度上,我们使用平均值来“近似”期望假定从独立但完全相同的分布中绘制的点上的梯度。那么为什么我们在 RL 中使用 SGD 并随着时间的推移而增加呢?这是由于 p(S_t | S_{t-1}) 分布的条件独立性的隐含假设吗?

感谢您澄清这一点。胺

4

0 回答 0