machine-learning - 在进行检查时更新和估计训练示例值的权重

Question

我正在阅读 Tom Mitchell 的机器学习书，第一章。

我想要做的是编写程序与自己玩跳棋，并学会在最后获胜。我的问题是关于它遇到的非终端板位置的信用分配。也许我们可以使用其特征和随机权重的线性组合来设置值，如何使用 LMS 规则对其进行更新？因为除了结束状态，我们没有训练样本。

我不确定我是否清楚地说明了我的问题，尽管我尝试过。

score 1 · Accepted Answer

我没有读过那本书，但我的方法如下。假设白方获胜。然后，白方通过的每个位置都应该得到正值，而黑方通过的每个位置都应该得到负值。如果你重复这个推理，每当你有一组动作组成一个游戏时，你应该从胜利者的所有位置上增加一些分数，并从失败者的所有位置上移除一些分数。你这样做是为了一堆电脑与电脑游戏。

你现在有一个由一堆棋子位置和各自分数组成的数据集。您现在可以计算这些位置的特征并训练您最喜欢的回归器，例如 LMS。

这种方法的一个改进是训练回归器，然后进行更多的游戏，其中每个动作是根据该动作的预测得分随机抽取的（即导致得分较高的位置的动作具有更高的概率）。然后你更新这些分数并重新训练回归器等。

1 回答 1