我对机器学习的背景知识很少,所以如果我的问题看起来很愚蠢,请原谅我。
根据我所读到的,迄今为止最好的无模型强化学习算法是 Q-Learning,其中代理世界中的每个状态、动作对都被赋予一个 q 值,并且在每个状态下具有最高的动作选择 q 值。然后 q 值更新如下:
Q(s,a) = (1-α)Q(s,a) + α(R(s,a,s') + (max_a' * Q(s',a'))) 其中 α 是学习速度。
显然,对于高维问题,状态的数量变得非常大,使得 q 值表存储不可行。
因此,Q-Learning 的实际实现需要通过状态泛化(即特征)来使用 Q 值近似。例如,如果代理是 Pacman,那么功能将是:
- 到最近点的距离
- 到最近鬼的距离
- 吃豆子在隧道里吗?
然后,您只需要为每个单个特征提供 q 值,而不是每个状态的 q 值。
所以我的问题是:
强化学习代理是否可以创建或生成附加特征?
我做过的一些研究:
这篇文章提到了 Geramifard 的 iFDD 方法
- http://www.icml-2011.org/papers/473_icmlpaper.pdf
- http://people.csail.mit.edu/agf/Files/13RLDM-GQ-iFDD+.pdf
这是“发现特征依赖关系”的一种方式,但我不确定这是否是特征生成,因为本文假设您从一组二进制特征开始。
我发现的另一篇论文是用深度强化学习玩 Atari,它“使用一系列神经网络架构提取高级特征”。
我已经阅读了这篇论文,但仍然需要充实/完全理解他们的算法。这就是我要找的吗?
谢谢