0

大家好,我正在尝试编写一个深度 q 学习网络,我没有使用任何类型的健身房环境或任何东西,只是使用屏幕抓取的 cnn。因为我没有使用很好编码的用户友好环境的健身房。我实际上为我的“状态”保存了什么仅仅是网络作为输入的图像?除了状态,动作,奖励,下一个状态之外,我的动作和奖励编码没有问题。我不确定我用于“状态”的内容是原始像素数据还是卷积图像?这行得通吗?任何帮助是极大的赞赏。希望我明白了这一点,我需要在回放记忆中保存状态、动作、奖励和下一个状态以回馈网络,如果你不使用开放式 AI 健身房,我只是不确定是什么状态。

4

0 回答 0