1

如果在包含中间奖励的情况下,Q-Learning 智能体在特定纸牌游戏中对抗对手的表现确实明显更好,这会表明算法存在缺陷还是其实现存在缺陷?

4

1 回答 1

1

如果没有关于 Q-Learning 代理的更多具体信息,很难回答这个问题。您可以将寻求即时奖励称为开发率,这通常与探索率成反比。应该可以在您的实现中配置这个和学习率。另一个重要因素是勘探策略的选择,您应该毫不费力地找到有助于做出这一选择的资源。例如:

http://www.ai.rug.nl/~mwiering/GROUP/ARTICLES/Exploration_QLearning.pdf

https://www.cs.mcgill.ca/~vkules/bandits.pdf

要直接回答这个问题,它可能是实现、配置、代理架构或学习策略的问题,这些问题会导致立即利用和固定在局部最小值上。

于 2019-01-18T08:55:57.033 回答