0

我的目标是在多武装强盗环境中建立一个代理。据我了解,它是上下文相关的,因为我有一个代理使用并知道的状态机。每个状态都是一个武装的强盗,并且有一定的奖励概率,他从一开始就不知道。

所以我想知道,在对代理进行 StableBaselines 3 和 TensorFlow 中的教程时,上下文部分如何在 MAB 设置中对这些代理起作用。在tf 文档中有一句话解释:

在“经典”上下文多臂强盗设置中,代理在每个时间步都会收到一个上下文向量(也称为观察值),并且必须从一组有限的编号动作(臂)中进行选择,以最大化其累积奖励。

所以在我的例子中,这意味着代理,它“站在”一台老虎机(处于某个状态 x)前面,只能到达一定数量的其他机器(在状态机中遍历到可能的 n 个连接状态)。不像经典的 MAB 问题,代理可以随时访问所有强盗(状态)。因此代理使用观察函数来获取上下文向量,其中包含他可能采取的行动的信息。这就是让强盗问题与上下文相关的原因,我是对的吗?

在这两个框架中,基本上有三个部分:代理、策略和环境。该环境将包含我的状态机。但是上下文向量部分如何适应设计呢?我必须以某种方式将其添加到政策中。但是 afaik 政策是一种完成的实施。我会在策略中更改整个算法吗?还是有将这些上下文设置考虑在内的“上下文策略”?我还没有找到关于 StableBaselines 3 或 TensorFlow 文档的任何更深入的信息。

4

0 回答 0