0

我创建了一个可以玩黑白棋的小型 AI 程序。我使用的算法(MCTS UTC)有一个参数,我可以在其中调整探索与利用的比率。这是一个范围从 0 到 10 的单个浮点值(无穷大是可能的,但高值没有多大意义)

我可以很容易地让算法与这个参数的不同值对战。这会让我知道这两个值中的哪一个更好。

什么是优化这个参数的好算法?

(我更喜欢有一些研究或出版物的算法来深入了解它为什么或何时最有效。)

4

1 回答 1

1

考虑一下遗传算法的顺序,程序自己玩,获胜者比例保持不变,并略有变化。跟踪值。随着时间的推移,它可能会收敛到“最佳”平衡。

于 2017-02-07T16:46:04.900 回答