问题标签 [reward]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
0 回答
102 浏览

reinforcement-learning - 了解强化学习中的奖励功能(atari 突破)

我试图了解 Deepmind 实现的 Breakout atari 中的奖励功能。我对奖励有点困惑。它们使用四帧表示每个状态,并且取决于每个动作的奖励将在四帧后收到。我的问题是,如果球被卡住了怎么办,它在哪里获得了很多奖励,如何确定获得奖励的相同动作是导致更多奖励的原因?

我正在谈论的案例

在此处输入图像描述

0 投票
0 回答
16 浏览

android - 如何防止那些不看广告就关闭广告的人在 Cordova 上获得奖励?

我正在使用科尔多瓦制作应用程序。

我的问题是;一切正常,但只有一个动作不起作用。

如果用户关闭广告,仍然可以获得奖励。

请帮我。

[我的 admob.js 和 end.js 文件在链接上。][1] [1]: https://sendgb.com/uk79Ty3BWQ1

0 投票
2 回答
236 浏览

reinforcement-learning - 使用 RLlib 时,如何防止我在评估运行期间收到的奖励总和间隔重复?

我正在使用Ray 1.3.0用于 RLlib)和SUMO 版本 1.9.2的组合来模拟多代理场景。我已将 RLlib 配置为使用单个PPO 网络,该网络通常由所有N个代理更新/使用。我的评估设置如下所示:

发生的情况是每 20 次迭代(每次迭代收集“X”个训练样本),至少有 10 集的评估运行。所有N个代理收到的奖励总和在这些情节中相加,并设置为该特定评估运行的奖励总和。随着时间的推移,我注意到有一种模式,奖励总和在相同的评估间隔内不断重复,并且学习无处可去。

更新(23/06/2021)

不幸的是,我没有为该特定运行激活 TensorBoard,但从每 10 集的评估期间收集的平均奖励(每 20 次迭代发生一次),很明显存在重复模式,如下面的注释图所示:

平均奖励与迭代次数

场景中的 20 个代理应该学习避免碰撞,而是继续以某种方式停滞在某个策略上,并最终在评估期间显示完全相同的奖励序列?

这是我如何配置评估方面的特征,还是我应该检查其他内容?如果有人能给我建议或指出正确的方向,我将不胜感激。

谢谢你。

0 投票
0 回答
14 浏览

mp4 - 如何将奖励系统放入 pendrive

我给我 8 岁的弟弟买了一个 pendrive,我把所有章节的视频都粘贴到了 pendrive,但他对它不太感兴趣。那么,有没有办法将奖励(如徽章)系统放入我的 SanDisk pendrive 中。

0 投票
1 回答
36 浏览

optimization - 我们可以使用强化学习在成本函数中获得预定义常量的“好”值吗?

我是强化学习的新手,我知道它背后的基本理论。但是,我无法将问题映射到现有框架。问题如下:

  1. 给定具有资源的环境:X、Y 和 Z

  2. 给定一组项目 I,每个项目都有 (x, y, z, r),其中 x、y 和 z 是服务项目所需的资源,r 是代理在服务项目时获得的奖励,( X, Y, Z) >> (x, y, z)

  3. 为了从集合中选择要服务的项目,我使用了成本函数 f = ax + by + cz,其中 a、b 和 c 是预定义的常量。

  4. 根据 r/f 比率对项目进行优先选择

  5. 目标:选择要服务的项目,以便考虑每个项目的 x、y 和 z 以及资源 X、Y 和 Z,总奖励(所有选定项目的 r 之和)最大

  6. 问题:如何调整 a、b 和 c 的值,以使总奖励最大化?

您能给我以下建议吗?

a) 我是否可以使用强化学习来调整常数 a、b 和 c 的“好”值

b) 如果是,我该怎么做?

c) 如果否,对适当的解决方法有什么建议吗?

谢谢你。

0 投票
0 回答
201 浏览

deep-learning - 深度强化学习中的损失函数与奖励

我从深度强化学习 (DRL) 开始,很难理解损失函数、奖励和两者在 DRL 中的集成之间的区别。

  • 损失函数:给定模型的输出和基本事实,它衡量输出“有多好”。并使用它来调整模型的参数。例如,MAE。但是,如果您从事计算机视觉质量工作,则可以使用例如 SSIM。

  • 奖励:给定一个代理(一个模型)和一个环境,一旦代理执行了一个动作,环境就会给它一个奖励(或惩罚)来衡量这个动作的“好坏”。非常简单的奖励是 +1 或 -1。

所以我认为损失函数和奖励都是使模型学习的定量方式。我对吗?

现在,至于 DRL。我看到了使用神经网络 (NN) 对代理进行建模的典型图表。

在此处输入图像描述

我试图解释它。但我不明白。它是某种损失函数的策略吗?否则,损失函数在哪里?我可以认为奖励可能被用作基本事实或其他东西,但我什至看不到 NN 内部奖励的“r”。

也许我的困惑与用监督学习识别NN有关,或者与Q-learning没有得到这个有关..有人可以帮忙吗?

0 投票
1 回答
60 浏览

python - 上下文老虎机奖励可以随着时间而改变吗?

我正在使用 Vowpal Wabbit 实现一个上下文强盗,用于动态定价,其中武器代表价格利润。成本/回报由价格 - 预期成本决定。成本最初是未知的,因此它是一个预测并且有可能发生变化。我的问题是,如果您的成本/回报会随着时间而变化,您能否更新成本/回报以反映实际成本并重新训练模型?

下面是一个带有 1 个特征(用户)和一个测试集的训练集的示例。成本基于预期的净收入。该模型经过训练并用于预测为测试集中的客户采取的行动。

但是,一周后我们收到了新信息,训练集中索引 0 的成本高于预期,而索引 2 的成本低于预期。这些新信息能否用于重新训练模型和预测动作?

0 投票
0 回答
21 浏览

python - 自动泊车自主机器人的奖励功能

我正在实施强化学习任务,以解决自主机器人的停车任务。所以基本上,任务的想法是从停车位前面的某个点开始,然后开车到一个不与障碍物碰撞的姿势。如果机器人的给定位置和航向角与目标姿势相匹配,则代理已达到目标。

实际上,我在塑造奖励函数来解决此任务时遇到了很多问题。所以我请你们帮我解决这个问题。我需要的奖励功能取决于以下内容:

  • (距离奖励) 机器人离目标越近,奖励越高
  • (定向奖励)航向角对目标位置角度的容差越小奖励越高
  • (速度奖励)接近目标位置时速度越慢奖励越高

我当前的奖励功能如下所示:

如果有人能建议我该功能有什么问题以及如何实现速度奖励,我将非常高兴!感谢你们。