问题标签 [reward]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
machine-learning - MIT 深度流量挑战中的奖励函数?
我一直在玩MIT DeepTraffic Challenge 也正在观看讲座和阅读幻灯片
在大致了解了架构之后,我想知道环境给出的奖励函数到底是什么。
- 它与网格单元的输入(最大可驱动速度)相同吗?
- 他们是否使用奖励剪辑?
我还发现了这个 javascript Codebase,它也没有真正帮助我理解。
android - Admob 奖励视频 - 广告未加载
我必须在当前项目的 android studio 中实现 Admob Reward Video。我已经尝试过一切,比如.. Youtube 教程、Admob 官方教程和脚本,但没有任何东西对我有用。请帮忙。期待有一个示例 android studio 项目,其中奖励视频被实施和工作。
这是我使用的代码:
谢谢你
android - 奖励视频广告服务器未填充。加载失败?安卓
我正在尝试在片段中实施 admob 广告,但已经一个月了,我仍然收到错误 3(没有广告可填充)。
我已尝试使用新 ID,但仍然出现相同的错误,测试广告工作正常。日志猫:
p>我正在片段中实现广告,所以在上下文中我传递了 getActivity() :
奖励视频广告监听器
android - Admob-是否可以在市场上放置另一个应用程序的链接并在下载时赚钱?
我认为这个问题很清楚,但在网上找不到相关答案。例如,如果我的应用程序放置了指向另一个应用程序的 PlayStore 下载页面的链接,并且如果用户下载了它,我可以从中获得收益吗?我知道并且我使用普通的 admob,它会不时显示要下载的 playstore 应用程序,但我的问题是直接针对并显示特定应用程序 %100 次。谢谢
reinforcement-learning - Q-learning 在倒立摆上的收敛性
您好,我正在全面控制手推车问题(倒立摆)。我的目标是让系统达到稳定,这意味着所有状态(x、xdot、theta 和 theta)都应该收敛到零。我正在使用具有如下定义的奖励函数的 q-learning。
不幸的是,没有收敛。通过 q-table 图,我可以看到它增加并稳定在最大值,但状态只是保持在一定范围内,不会变为零。我觉得我的代理学习速度不够快,在某些时候我不再学习了。谁能帮我。
python - 使用 python 实现 MDP - 维度
我在mdp
用python实现(马尔科夫决策过程)时遇到问题。
我有这些矩阵:states: (1 x n)
.Transitionactions: (1 x m)
矩阵由以下代码计算:
和此代码的奖励矩阵:
为了获得最佳值,python中的“quantecon包”定义为:
其中 Q : 转移矩阵应该是m x n x m
。
谁能帮我理解 Q 如何成为 (m,n,m) matirx?!先感谢您。
python - 基础强化学习中的折扣奖励
我想知道强化学习的折扣奖励实际上是如何工作的。我相信这个想法是,在一集后面的奖励比早期的奖励更重要。这对我来说很有意义。在我看到的示例中,我很难理解这实际上是如何工作的。
我假设下面的代码是进行强化学习的标准方法。我将这段代码解释如下:遍历每个动作,训练模型预测动作的好坏。
这似乎正在做的是将我所有的预测均匀地乘以任何 gamma,添加奖励,并使用它来训练模型。
看到奖励总是在每一步更新,我很难理解这是如何实现使情节中的早期行动比后来的行动更不鼓励/不鼓励的目标。奖励不应该一步一步地加在一起,然后乘以伽玛来实现这一点吗?
reinforcement-learning - 使用 DDPG Agent 进行阶跃函数处理的自定义环境 Gym
我是强化学习的新手,我想使用这种技术处理音频信号。我构建了一个基本的阶跃函数,我希望将其展平以Gym OpenAI
进行一般的强化学习。
为此,我使用由GoalEnv
提供的,OpenAI
因为我知道目标是什么,即平坦信号。那是具有输入和所需信号的图像:
_set_action
执行的 step 函数调用achieved_signal = convolution(input_signal,low_pass_filter) - offset
low_pass_filter 也将截止频率作为输入。截止频率和偏移是作用于观察以获得输出信号的参数。L2-norm
设计的奖励函数将输入信号和所需信号之间的帧返回到负值,以惩罚较大的范数。
以下是我创建的环境:
然后可以将环境实例化为变量,并通过FlattenDictWrapper
此处建议的https://openai.com/blog/ingredients-for-robotics-research/(页面末尾)进行展平。
该代理是来自 的 DDPG 代理keras-rl
,因为操作可以在环境中描述的连续 action_space 中采用任何值。我想知道为什么演员和评论家网络需要一个额外维度的输入,在input_shape=(1,) + env.observation_space.shape
最后,训练代理:
现在有一个问题:对于我的环境的同一个实例,代理似乎总是被困在所有剧集中的相同输出值邻域:
累积奖励是负的,因为我只是让代理获得负奖励。我从https://github.com/openai/gym/blob/master/gym/envs/robotics/fetch_env.py使用它,它是 OpenAI 代码的一部分作为示例。在一个情节中,我应该得到不同的动作集收敛到一个(cutoff_final,offset_final),这将使我的输入阶跃信号接近我的输出平坦信号,这显然不是这种情况。此外,我想,对于连续剧集,我应该得到不同的动作。
unity3d - 如何在 Unity 应用程序中创建多个奖励视频?
最近几天我试图在我的 Unity 应用程序中实现奖励视频(admob)。我希望人们可以观看多个奖励视频,并提供不同类型的奖励。我觉得我很接近(也许根本没有),因为我几乎可以正常工作。第一次点击测试广告时,它会显示广告,我会获得奖励以及我获得奖励的消息。如果我然后加载/观看第二个广告,它会起作用,但奖励不是应有的。我得到两个奖励。所以,我第一次看一个 100 个硬币的广告,我得到了 100 个硬币,而且效果很好。然后,我看了 500 个硬币的广告,但我得到了 600 个硬币,我收到的消息都是 100 和 500 个硬币,虽然我只“赚”了 500 个硬币。看起来 HandleRewardBasedVideoRewardedAdMob 都存在错误,但我已经尝试了我能想到的一切,我没有在互联网上找到任何类似的东西。我用小号奖励 100 个硬币,大号奖励 500 个硬币。我希望有人可以帮助我,因为它让我发疯。感谢您的时间!
reward - 奖励分配强化学习
问题1:我们想从s 到e。在每个单元格中,我们可以向右 R 或向下 D 移动。环境是完全已知的。该表有 (4*5) 20 个单元格。挑战在于我们不知道每个单元格的奖励是什么,但是当我们通过并完成一条路径时,我们将获得整体奖励。示例:一个解决方案可以是 RRDDRDR,总奖励为 16。
s 3 5 1 5
1 2 4 5 1
7 3 1 2 8
9 2 1 1 电子
目标是找到一组从开始到结束的动作,从而最大化获得的整体奖励。我们如何在动作之间分配整体奖励?
问题2:这个问题与问题1相同,但问题环境的奖励是动态的,因此我们到达一个单元的方式会影响前面单元的奖励。示例:对于 RRD 和 DRR 的两次移动,两者都会将我们带到同一个单元格,但由于它们具有不同的路径,因此前面的单元格将获得不同的奖励。
s 3 5 1 5
1 2 4 9 -1
7 3 2 -5 18
9 2 9 7 e
(RRD路径,选择这条路径会导致前面的cell的reward发生变化)
s 3 5 1 5
1 2 4 3 1
7 3 30 7 -8
9 2 40 11 e
(DRR路径,选择这条路径会导致前方小区的奖励发生变化)
目标是找到一组从开始到结束的动作,从而最大化获得的整体奖励。我们如何在动作之间分配整体奖励?(通过一条从起点到终点的路径后,获得整体奖励)