我从深度强化学习 (DRL) 开始,很难理解损失函数、奖励和两者在 DRL 中的集成之间的区别。
损失函数:给定模型的输出和基本事实,它衡量输出“有多好”。并使用它来调整模型的参数。例如,MAE。但是,如果您从事计算机视觉质量工作,则可以使用例如 SSIM。
奖励:给定一个代理(一个模型)和一个环境,一旦代理执行了一个动作,环境就会给它一个奖励(或惩罚)来衡量这个动作的“好坏”。非常简单的奖励是 +1 或 -1。
所以我认为损失函数和奖励都是使模型学习的定量方式。我对吗?
现在,至于 DRL。我看到了使用神经网络 (NN) 对代理进行建模的典型图表。
我试图解释它。但我不明白。它是某种损失函数的策略吗?否则,损失函数在哪里?我可以认为奖励可能被用作基本事实或其他东西,但我什至看不到 NN 内部奖励的“r”。
也许我的困惑与用监督学习识别NN有关,或者与Q-learning没有得到这个有关..有人可以帮忙吗?