我想在零售行业的推荐系统上使用 DQN
但问题是,这个问题的状态空间是时间不均匀且不确定的
(与 Atari 游戏相比)
我想出了解决这个问题的两种方法
- 使状态转换成为确定性
- 使用历史数据计算转移概率,使用概率转移状态
但是……他们两个似乎都没有意义
有人指出这类问题
如果我想建立一个基于强化学习的推荐系统
我应该从哪里开始?
我想在零售行业的推荐系统上使用 DQN
但问题是,这个问题的状态空间是时间不均匀且不确定的
(与 Atari 游戏相比)
我想出了解决这个问题的两种方法
但是……他们两个似乎都没有意义
有人指出这类问题
如果我想建立一个基于强化学习的推荐系统
我应该从哪里开始?