1

我想知道是否可以创建一个等效于contextual Multi-Armed Bandit使用 SB3 库的代理。

在我看来,这是一个简单得多的代理,但是查看他们说他们不涵盖那种算法的库文档,我想知道是否可以通过调整现有代理之一来创建类似的代理(没有轨迹解释) .

我的第一种方法是通过分配 的值来使用任何代理gamma=0,但我认为这在数学上是不正确的。

4

0 回答 0