我无法理解 SARSA 算法: http ://en.wikipedia.org/wiki/SARSA
特别是在更新 Q 值时,什么是 gamma?s(t+1) 和 a(t+1) 使用什么值?
有人可以向我解释这个算法吗?
谢谢。
我无法理解 SARSA 算法: http ://en.wikipedia.org/wiki/SARSA
特别是在更新 Q 值时,什么是 gamma?s(t+1) 和 a(t+1) 使用什么值?
有人可以向我解释这个算法吗?
谢谢。
Gamma 决定了你的算法有多少内存。如果将其设置为 0.0,那么您的算法将根本不会更新值函数Q。如果您将其设置为 1.0,那么新体验的权重将与之前所有体验的总和一样多。最佳值介于两者之间,必须通过实验确定。
下面是它的工作原理:
实际上,价值函数只是每个动作和每个状态的这些更新值的运行平均值。