reinforcement-learning - Q-学习算法

问问题 2016-12-08T15:09:43.413

469 次

下午好，我使用 q-learning 对以下问题进行建模：一组代理可以访问 2 个接入点 (AP) 状态以上传数据。S={1,2} 表示与 AP1 或 2 的连接的状态集。A={remain, change}。我们假设在整个模拟期间，代理可以访问 2 个 AP。目标是在模拟过程中上传最大的数据。奖励是一个依赖于时间的函数，定义如下：R(t)= alpha*T+b，其中 T 是时间间隔的长度，b 随时间变化。

在这种情况下，将终止条件定义为 q-tables 收敛到预定义值是否正确？如何表达开发阶段（因为没有定义为最终目标的步骤）？

预先感谢您的帮助。

reinforcement-learning - Q-学习算法

0 回答 0

Related

Reference