0

当我在强化学习中使用 Q-Table 保存状态动作时,某些状态永远不会(或很少)发生并且状态动作值在最大迭代之前保持为零,因此我决定使用神经网络在线估计 Q-Table 而不是使用Q 表。

哪种类型的神经网络可以更准确地估计这类问题,这个解决方案对我有帮助吗?

4

1 回答 1

0

我使用局部加权回归(LWR)作为函数逼近,并简单地用这个函数替换表

于 2014-01-30T18:43:14.770 回答