我正在使用 Stable Baselines 3 来训练代理玩Connect 4游戏。当代理作为第二个玩家开始游戏时,我试图考虑这种情况。
self.env = self.ks_env.train([opponent, None])
当我尝试运行代码时,出现以下错误:
invalid multinomial distribution (encountering probability entry < 0)
/opt/conda/lib/python3.7/site-packages/torch/distributions/categorical.py in sample(self, sample_shape)
samples_2d = torch.multinomial(probs_2d, sample_shape.numel(), True).T
但是,当代理是第一个玩家时没有问题:
self.env = self.ks_env.train([None, opponent])
我认为问题与 Pytorch 库有关。我的问题是如何解决这个问题?