-1

如果 DQN 中的状态值只需要为 0 到 1,例如 state = [0, 0, 0, 1, 1, 1, 1, 0, 1, 0]

或者它的状态值大于 1 eh state = [6, 5, 4, 1, 1, 1, 2, 3, 15, 10]

4

1 回答 1

1

国家本身不需要在价值上受到限制。您可以拥有任意大的范围。但出于训练目的,建议在 [0,1] 范围内对状态值进行归一化,以便使用函数逼近的神经网络不会饱和。

于 2020-05-26T15:45:56.880 回答