reinforcement-learning - Q-learning中的探索和开发

Question

在 Q 学习算法中，动作的选择取决于当前状态和 Q 矩阵的值。我想知道这些 Q 值是仅在探索步骤期间更新还是在开发步骤中也发生变化。

score 2 · Accepted Answer

如果您阅读 Q-learning 算法代码，例如来自Sutton & Barto 的书：

很明显，Q 值总是会更新，无论选择的动作是否是探索性的。

请注意，“使用从Q派生的策略（例如，epsilon-greedy）从s中选择a ”这一行意味着该操作有时将是探索性的。

1 回答 1