python - Q 学习状态动作对，“状态”到底是什么？

翻译自：https://stackoverflow.com/questions/61276509 2020-04-17T16:40:35.203

88 次

大家好，我正在尝试编写一个深度 q 学习网络，我没有使用任何类型的健身房环境或任何东西，只是使用屏幕抓取的 cnn。因为我没有使用很好编码的用户友好环境的健身房。我实际上为我的“状态”保存了什么仅仅是网络作为输入的图像？除了状态，动作，奖励，下一个状态之外，我的动作和奖励编码没有问题。我不确定我用于“状态”的内容是原始像素数据还是卷积图像？这行得通吗？任何帮助是极大的赞赏。希望我明白了这一点，我需要在回放记忆中保存状态、动作、奖励和下一个状态以回馈网络，如果你不使用开放式 AI 健身房，我只是不确定是什么状态。

python - Q 学习状态动作对，“状态”到底是什么？

0 回答 0

Related

Reference