java - Encog：强化学习/Actor-Critic 模型

问问题 2013-11-19T23:03:12.813

638 次

2

我有一个基本的神经网络问题，我想要一个“火箭”将它的高度保持在给定的高度。（这是一个简单版本的问题，它会变得更复杂）。

我正在使用 encog 平台，不清楚如何使用它来实现强化学习。

我认为我想使用存在两个独立 NN 的 Actor-Critic 模型。其中之一根据当前状态分析应得的奖励。另一个 NN 计算它应该施加在火箭上的力。

我可以计算一个奖励模式（将火箭和目标高度之间的距离驱动到 0）。但我不知道如何让“演员”NN 学习。似乎我会从“Critic”NN 中获取错误，并使用与 Actor 的反向传播错误相同的错误。但我不知道如何在 Encog 中做到这一点。

非常感谢您的帮助！

0 回答 0