在 Q 学习算法中,动作的选择取决于当前状态和 Q 矩阵的值。我想知道这些 Q 值是仅在探索步骤期间更新还是在开发步骤中也发生变化。
问问题
670 次
1 回答
2
如果您阅读 Q-learning 算法代码,例如来自Sutton & Barto 的书:
很明显,Q 值总是会更新,无论选择的动作是否是探索性的。
请注意,“使用从Q派生的策略(例如,epsilon-greedy)从s中选择a ”这一行意味着该操作有时将是探索性的。
于 2017-01-06T15:28:50.167 回答