下午好,我使用 q-learning 对以下问题进行建模:一组代理可以访问 2 个接入点 (AP) 状态以上传数据。S={1,2} 表示与 AP1 或 2 的连接的状态集。A={remain, change}。我们假设在整个模拟期间,代理可以访问 2 个 AP。目标是在模拟过程中上传最大的数据。奖励是一个依赖于时间的函数,定义如下:R(t)= alpha*T+b,其中 T 是时间间隔的长度,b 随时间变化。
在这种情况下,将终止条件定义为 q-tables 收敛到预定义值是否正确?如何表达开发阶段(因为没有定义为最终目标的步骤)?
预先感谢您的帮助。