我即将写一个基于强化学习的国际象棋引擎。我想训练一个评估函数,并找出电路板最重要特征的权重。
我不是机器学习专家,我正在尝试从书籍和教程中学习。在每个教程中,奖励都非常简单,通常是 1、0,也许是 -1,但在国际象棋中并没有如此明显的奖励(无论将棋位置如何)。例如,假设我在板上有一个情况。我做了 10 次(随机)移动,此时我应该计算奖励,即起始位置和当前位置之间的差异(或误差)。当我唯一的评估功能正在训练时,该怎么做?
我想避免使用其他引擎的评分系统,因为我觉得那宁愿是监督学习,这不是我的目标。