我正在阅读 Tom Mitchell 的机器学习书,第一章。
我想要做的是编写程序与自己玩跳棋,并学会在最后获胜。我的问题是关于它遇到的非终端板位置的信用分配。也许我们可以使用其特征和随机权重的线性组合来设置值,如何使用 LMS 规则对其进行更新?因为除了结束状态,我们没有训练样本。
我不确定我是否清楚地说明了我的问题,尽管我尝试过。
我正在阅读 Tom Mitchell 的机器学习书,第一章。
我想要做的是编写程序与自己玩跳棋,并学会在最后获胜。我的问题是关于它遇到的非终端板位置的信用分配。也许我们可以使用其特征和随机权重的线性组合来设置值,如何使用 LMS 规则对其进行更新?因为除了结束状态,我们没有训练样本。
我不确定我是否清楚地说明了我的问题,尽管我尝试过。
我没有读过那本书,但我的方法如下。假设白方获胜。然后,白方通过的每个位置都应该得到正值,而黑方通过的每个位置都应该得到负值。如果你重复这个推理,每当你有一组动作组成一个游戏时,你应该从胜利者的所有位置上增加一些分数,并从失败者的所有位置上移除一些分数。你这样做是为了一堆电脑与电脑游戏。
你现在有一个由一堆棋子位置和各自分数组成的数据集。您现在可以计算这些位置的特征并训练您最喜欢的回归器,例如 LMS。
这种方法的一个改进是训练回归器,然后进行更多的游戏,其中每个动作是根据该动作的预测得分随机抽取的(即导致得分较高的位置的动作具有更高的概率)。然后你更新这些分数并重新训练回归器等。