Find centralized, trusted content and collaborate around the technologies you use most.
Teams
Q&A for work
Connect and share knowledge within a single location that is structured and easy to search.
如果 DQN 中的状态值只需要为 0 到 1,例如 state = [0, 0, 0, 1, 1, 1, 1, 0, 1, 0]
或者它的状态值大于 1 eh state = [6, 5, 4, 1, 1, 1, 2, 3, 15, 10]
国家本身不需要在价值上受到限制。您可以拥有任意大的范围。但出于训练目的,建议在 [0,1] 范围内对状态值进行归一化,以便使用函数逼近的神经网络不会饱和。