deep-learning - 深度强化学习中的损失函数与奖励

问问题 2021-10-04T14:57:34.573

201 次

1

我从深度强化学习 (DRL) 开始，很难理解损失函数、奖励和两者在 DRL 中的集成之间的区别。

损失函数：给定模型的输出和基本事实，它衡量输出“有多好”。并使用它来调整模型的参数。例如，MAE。但是，如果您从事计算机视觉质量工作，则可以使用例如 SSIM。
奖励：给定一个代理（一个模型）和一个环境，一旦代理执行了一个动作，环境就会给它一个奖励（或惩罚）来衡量这个动作的“好坏”。非常简单的奖励是 +1 或 -1。

所以我认为损失函数和奖励都是使模型学习的定量方式。我对吗？

现在，至于 DRL。我看到了使用神经网络 (NN) 对代理进行建模的典型图表。

我试图解释它。但我不明白。它是某种损失函数的策略吗？否则，损失函数在哪里？我可以认为奖励可能被用作基本事实或其他东西，但我什至看不到 NN 内部奖励的“r”。

也许我的困惑与用监督学习识别NN有关，或者与Q-learning没有得到这个有关..有人可以帮忙吗？

0 回答 0