2

我有一个基本的神经网络问题,我想要一个“火箭”将它的高度保持在给定的高度。(这是一个简单版本的问题,它会变得更复杂)。

我正在使用 encog 平台,不清楚如何使用它来实现强化学习。

我认为我想使用存在两个独立 NN 的 Actor-Critic 模型。其中之一根据当前状态分析应得的奖励。另一个 NN 计算它应该施加在火箭上的力。

我可以计算一个奖励模式(将火箭和目标高度之间的距离驱动到 0)。但我不知道如何让“演员”NN 学习。似乎我会从“Critic”NN 中获取错误,并使用与 Actor 的反向传播错误相同的错误。但我不知道如何在 Encog 中做到这一点。

非常感谢您的帮助!

4

0 回答 0