3

我想在零售行业的推荐系统上使用 DQN

但问题是,这个问题的状态空间是时间不均匀且不确定的

(与 Atari 游戏相比)

我想出了解决这个问题的两种方法

  • 使状态转换成为确定性
  • 使用历史数据计算转移概率,使用概率转移状态

但是……他们两个似乎都没有意义

有人指出这类问题

如果我想建立一个基于强化学习的推荐系统

我应该从哪里开始?

4

0 回答 0