我目前正在做一个课堂项目,并试图跳出框框为类似于奥赛罗的游戏开发人工智能。
我正在研究许多不同的技术和算法来确定最佳移动,例如 Negascout 和 MTD(f)。但是,它们都需要良好的评估功能。
我想出了一堆可能的指标 {A_0...A_n} 在函数中使用
G(state) = p_0*A_0 + p_1*A_1 + ... +p_n*A_n
我想以某种方式找到 p_0 到 p_n 的好值
一个建议是使用机器学习为函数生成参数,但在阅读中,我发现 Q learning 之类的算法都要求我已经有一个奖励函数。
此外,在阅读 Td(lambda) 时,我注意到它甚至不需要手动编码指标。它会使用什么样的奖励函数来学习?
我的理解中缺少什么?