我想知道是否可以创建一个等效于contextual Multi-Armed Bandit
使用 SB3 库的代理。
在我看来,这是一个简单得多的代理,但是查看他们说他们不涵盖那种算法的库文档,我想知道是否可以通过调整现有代理之一来创建类似的代理(没有轨迹解释) .
我的第一种方法是通过分配 的值来使用任何代理gamma=0
,但我认为这在数学上是不正确的。
我想知道是否可以创建一个等效于contextual Multi-Armed Bandit
使用 SB3 库的代理。
在我看来,这是一个简单得多的代理,但是查看他们说他们不涵盖那种算法的库文档,我想知道是否可以通过调整现有代理之一来创建类似的代理(没有轨迹解释) .
我的第一种方法是通过分配 的值来使用任何代理gamma=0
,但我认为这在数学上是不正确的。