0

0

我正在尝试重现论文 Demand Response for Home Energy Management Using Reinforcement Learning and Artificial Neural Network 中的工作。我想优化家用电器的功耗。动作空间是家用电器的不同额定功率。我的奖励函数是 = -(额定功率 * 电价)。

我在 Matlab 上使用 DQN 算法训练了一个 RL 代理。我有代理应该从中选择的动作空间,但我的代理总是采取相同的动作,而不管状态如何。我检查了我的奖励函数,算法没有选择奖励最高的动作。任何人都可以想到为什么代理会这样?

我的代码:

在此处 输入图像描述 在此处输入图像描述 我在训练时得到什么:

在此处输入图像描述

而且我的代理总是采用相同的额定功率,无论状态如何(电价)。为什么?

4

0 回答 0