我已经使用表查找成功地实现了一个 SARSA 算法(一步和使用资格跟踪)。本质上,我有一个 q 值矩阵,其中每一行对应一个状态,每一列对应一个动作。
就像是:
[Q(s1,a1), Q(s1,a2), Q(s1,a3), Q(s1,a4)]
[Q(s2,a1), (Q(s2,a2), Q(s2a3), Q(s2, a2]
.
.
.
[Q(sn,a1), Q(sn,a2), Q(sn,a3), Q(sn,a4)]
在每个时间步,从矩阵中选择一行,根据策略,根据 SARSA 规则选择和更新一个动作。
我现在正在尝试将其实现为使用梯度下降的神经网络。
我的第一个假设是创建一个两层网络,输入层具有与状态一样多的输入神经元,输出层具有与动作一样多的输出神经元。每个输入将完全连接到每个输出。(所以,事实上,它看起来像上面的矩阵)
我的输入向量将是一个 1xn 行向量,其中 n 是输入神经元的数量。输入向量中的所有值都将为 0,除了对应于当前状态的索引为 1。即:
[0 0 0 1 0 0]
将是状态 4 中代理的输入向量。
因此,该过程将类似于:
[0 0 0 1 0 0] X [ 4 7 9 3]
[ 5 3 2 9]
[ 3 5 6 9]
[ 9 3 2 6]
[ 2 5 7 8]
[ 8 2 3 5]
我创建了一个随机的样本权重矩阵。
结果将是:
[9 3 2 6]
这意味着如果选择了贪婪策略,则应该选择动作 1,并且第四个输入神经元和第一个输出神经元之间的连接应该通过以下方式变得更强:
dw = dw_old + learning_rate*(reward + discount*network_output - dw_old)
(取自 SARSA 算法的方程)
然而——这个实现并不能说服我。根据我的阅读,网络权重应该用于计算状态-动作对的 Q 值,但我不确定它们是否应该代表这样的值。(特别是因为我通常看到权重值只包含在 0 和 1 之间。)
有什么建议吗?