我想知道如何最好地将我的 DQN 代理对其环境所做的更改反馈给它自己。
我有一个电池模型,代理可以观察到 17 个步骤和 5 个特征的时间序列预测。然后它决定是充电还是放电。
我想将其当前的充电状态(空、半满、满等)包含在其观察空间中(即在我提供给它的 (17,5) 数据帧内的某个位置)。
我有几个选项,我可以将一整列设置为充电状态值,一整行,或者我可以展平整个数据框并将一个值设置为充电状态值。
这些是不明智的吗?将整个列设置为单个值对我来说似乎有点初级,但它真的会影响性能吗?由于我计划使用 conv 或 lstm 层(尽管当前模型只是密集层),因此我对将整个事物展平持谨慎态度。