Keras
我正在尝试通过强化学习来训练神经网络玩井字游戏Python
。目前,网络获取当前板的输入:
array([0,1,0,-1,0,1,0,0,0])
1 = X
-1 = O
0 = an empty field
如果网络赢得了一场比赛,它会从它所做的每一个动作(输出)中获得奖励。 [0,0,0,0,1,0,0,0,0]
如果网络输了,我想用不好的奖励来训练它。 [0,0,0,0,-1,0,0,0,0]
但目前我得到了很多 0.000e-000
准确度。
我可以训练一个“坏奖励”吗?或者如果不能用-1
我应该怎么做呢?
提前致谢。