1

我正在玩 keras 和强化学习。我为自己创建了一种合成输入数据,如下所示:

输入数据

损失函数似乎在每一集内都会降低它的值,但随后在每个下一个小批量开始时再次从随机值开始。看起来特工每看一集就会忘记一切。损失函数看起来像这样(2 个单独的示例,每个有 8 集,每批有 100 个样本) 我错过了什么?这是什么症状?损失函数示例1 损失函数示例 2

4

0 回答 0