请看下面的图片:
我的目标是代理在环境中旋转和移动而不是掉入火坑,我有这样的想法:
Do for 1000 episodes:
An Episode :
start to traverse the environment;
if falls into a hole , back to first place !
所以我读过一些地方:目标是一集的终点,所以如果我们认为目标不是落入火灾,目标的反面(即放入火坑)将是一集的终点。您对目标设定有何建议?
另一个问题是我为什么要设置奖励矩阵?我读过 Q Learning 是无模型的!我知道在 Q Learning 中,我们将设定目标,而不是实现目标的方式。(与监督学习相反。)