machine-learning - 使用神经网络在线估计 Q-Table

Question

当我在强化学习中使用 Q-Table 保存状态动作时，某些状态永远不会（或很少）发生并且状态动作值在最大迭代之前保持为零，因此我决定使用神经网络在线估计 Q-Table 而不是使用Q 表。

哪种类型的神经网络可以更准确地估计这类问题，这个解决方案对我有帮助吗？

score 0 · Accepted Answer

0

我使用局部加权回归（LWR）作为函数逼近，并简单地用这个函数替换表

于 2014-01-30T18:43:14.770 回答

1 回答 1