我有N个代理/用户访问一个无线频道,每次只有一个代理可以访问该频道并获得奖励。
每个用户都有一个可以存储B个数据包的缓冲区,我假设它是无限缓冲区。
如果时隙t中的数据包成功或失败(冲突),每个用户n从环境中得到观察。如果多个用户访问该频道,他们将受到惩罚。
由于我们只有一个频道,因此来自频道的反馈对于所有用户都是相同的。奖励是- B_n(缓冲区中数据包数量的负数)。每个用户都希望最大化自己的奖励并尝试清空缓冲区。
数据包按照泊松过程到达每个用户,每个时隙平均 $\lambda$ 个数据包。
每个用户都有前 10 个时隙的历史,它用作 DQN 的输入,以输出采取行动A_n的概率:保持沉默或传输。历史是(A_n,F,B_n)
每个用户都不知道其他用户的动作和缓冲区状态。
我正在尝试使用多智能体强化学习对我的问题进行建模,到目前为止,我已经使用 DQN 进行了尝试,但结果或多或少类似于随机方案。可能是用户没有太多上下文信息来了解其他用户的行为?或者还有其他原因吗?
我想知道如何为我的环境建模,因为状态(在 RL 意义上)是静态的,环境不会改变。唯一改变的是每个用户在每个时间段的历史记录。所以我不确定它是否是一个部分可观察的 MDP,或者它是否应该被建模为我不知道是否正确的多智能体单臂老虎机问题。
第二个问题是我尝试过 DQN 但它没有奏效,我想知道这样的问题是否可以与表格 Q 学习一起使用?我还没有看到有人使用 QL 的多代理工作。任何见解都可能会有所帮助。