machine-learning - 使用梯度差异实现 SARSA

Question

我已经使用表查找成功地实现了一个 SARSA 算法（一步和使用资格跟踪）。本质上，我有一个 q 值矩阵，其中每一行对应一个状态，每一列对应一个动作。

就像是：

[Q(s1,a1), Q(s1,a2), Q(s1,a3), Q(s1,a4)]
[Q(s2,a1), (Q(s2,a2), Q(s2a3), Q(s2, a2]
.
.
.
[Q(sn,a1), Q(sn,a2), Q(sn,a3), Q(sn,a4)]

在每个时间步，从矩阵中选择一行，根据策略，根据 SARSA 规则选择和更新一个动作。

我现在正在尝试将其实现为使用梯度下降的神经网络。

我的第一个假设是创建一个两层网络，输入层具有与状态一样多的输入神经元，输出层具有与动作一样多的输出神经元。每个输入将完全连接到每个输出。（所以，事实上，它看起来像上面的矩阵）

我的输入向量将是一个 1xn 行向量，其中 n 是输入神经元的数量。输入向量中的所有值都将为 0，除了对应于当前状态的索引为 1。即：

[0 0 0 1 0 0]

将是状态 4 中代理的输入向量。

因此，该过程将类似于：

[0 0 0 1 0 0] X [ 4 7 9 3]
                [ 5 3 2 9]
                [ 3 5 6 9]
                [ 9 3 2 6]
                [ 2 5 7 8]
                [ 8 2 3 5]

我创建了一个随机的样本权重矩阵。

结果将是：

[9 3 2 6]

这意味着如果选择了贪婪策略，则应该选择动作 1，并且第四个输入神经元和第一个输出神经元之间的连接应该通过以下方式变得更强：

dw = dw_old + learning_rate*(reward + discount*network_output - dw_old)

（取自 SARSA 算法的方程）

然而——这个实现并不能说服我。根据我的阅读，网络权重应该用于计算状态-动作对的 Q 值，但我不确定它们是否应该代表这样的值。（特别是因为我通常看到权重值只包含在 0 和 1 之间。）

有什么建议吗？

score 2 · Accepted Answer

摘要：您当前的方法是正确的，只是您不应将输出值限制在 0 和 1 之间。

这个页面有一个很好的解释，我将在这里总结。它没有专门讨论 SARSA，但我认为它所说的一切都应该翻译。

结果向量中的值确实应该代表您的神经网络对与每个状态相关的 Q 值的估计。出于这个原因，通常建议您不要将允许值的范围限制在 0 和 1 之间（因此只需将值与连接权重相乘，而不是使用某种 sigmoid 激活函数）。

至于如何表示状态，一种选择是用代理拥有或理论上可能拥有的传感器来表示它们。例如，在下面的示例中，机器人具有三个“感觉”传感器，每个传感器都可以处于三种条件之一。它们共同为机器人提供了它将获得的所有关于它所处状态的信息。

在此处输入图像描述

但是，如果您想为您的代理提供完美的信息，您可以想象它有一个传感器，可以准确地告诉它它处于哪种状态，如本页末尾附近所示。这将完全按照您的网络当前设置的方式工作，一个输入代表每个状态。

machine-learning - 使用梯度差异实现 SARSA

1 回答 1

Related

Reference