问题标签 [reinforcement-learning]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
1 回答
1961 浏览

artificial-intelligence - 神经网络和时间差异学习

我读过几篇关于时间差分学习的论文和讲座(其中一些与神经网络有关,例如关于 TD-Gammon 的 Sutton 教程),但我很难理解这些方程,这导致我提出了我的问题。

-预测值V_t从何而来?随后,我们如何得到 V_(t+1)?

- 当 TD 与神经网络一起使用时,究竟是什么反向传播?也就是说,在使用 TD 时,返回传播的错误从何而来?

0 投票
1 回答
508 浏览

algorithm - 具有离散动作的连续状态空间的强化学习(在 NetLogo 中)

对于不熟悉的人来说,NetLogo 是一种基于代理的建模语言。在这种情况下,代理正在模拟动态环境中的有机体,他们在其中寻找能量。能量无法预测地移动,但会随着时间的推移而扩散,因此觅食者可以通过“上坡”找到源头。(我稍微简化了一点,agents 也社交和繁殖,但如果我们能找到一个好的吃饭和移动算法,那么它应该可以推广)

目标是让智能体使用两个动作来最大化他们的能量:移动 N/S/E/W,然后吃。代理可以访问一些信息:周围位置的能量水平和他们自己的能量,所有这些都是连续变量。智能体不能完全明确地了解他们的过去或世界,这限制了大多数传统 RL 算法的使用。他们可以拥有隐含的知识(例如,具有随时间调整的权重的神经网络是可以的)。

我的直觉是神经网络可以解决这个问题,我成功地实现了一个……但我只是简单地运行了几千次模拟来优化权重。这(1)不能保证收敛,并且(2)可能远非最佳/有效。

关于如何在这个世界上学习的任何想法?更好的强化学习方法或学习神经网络权重的算法都会很棒。最近,我查阅了很多文献试图找到解决方案,而我发现的每个算法最终都有一两个问题,无法使用它们。提前感谢您的帮助!

0 投票
4 回答
405 浏览

python - PyBrain 强化学习输入缓冲区不正确

我正在尝试PyBrain为强化学习进行设置,但是当我第一次尝试执行操作时,仍然会出现相同的错误。module.py中的这一行会引发断言失败,因为ActionValueTable我们正在使用的(模块的子模块)上的输入缓冲区设置不正确。

有没有其他人遇到过类似的问题或对如何解决问题有见解?

0 投票
3 回答
3754 浏览

python-2.7 - 有没有比这更好的方法来实现强化学习的 Softmax 动作选择?

我正在为强化学习任务(http://www.incompleteideas.net/book/ebook/node17.html)实施 Softmax 动作选择策略。

我提出了这个解决方案,但我认为还有改进的余地。

1-在这里我评估概率

2-在这里,我将 ]0,1[ 范围内的随机生成数与动作的概率值进行比较:

编辑:

示例:rand_action 为 0.78,prob_t[0] 为 0.25,prob_t[1] 为 0.35,prob_t[2] 为 0.4。概率总和为 1。0.78 大于动作 0 和 1 (prob_t[0] + prob_t[1]) 的概率之和,因此选择动作 2。

有没有更有效的方法来做到这一点?

0 投票
1 回答
671 浏览

python - 人工智能学习的最佳/最简单的模块?

我读了这个

如何让 AI 从零开始学习玩游戏?举个小例子,假设 AI 去玩二十一点,打折所有的分牌,牌组中的牌等等,AI 要么打要么站,它不知道自己做了什么,直到它开始失去游戏,它应该知道打得太多会输,站得太早也是如此。我读到这叫做强化学习。但我不知道如何实现它,使用什么模块等等......

我应该从哪里开始?

我的最终目标是创造一种用户和人工智能玩的游戏,不是互相对抗,而是自己对抗游戏机制[不是合作],并且都学习玩它。游戏每隔一段时间就会发生变化,新的机制会出现,让游戏对玩家和 AI 来说都更难。人工智能既可以通过玩游戏来学习,也可以通过观察玩家输赢来学习。我不想让计算机学得太快,我想让两者都在同一个“地面”上……也许最后一个关卡是玩家可以对抗 AI。我是去正确的地方还是应该尝试其他方法?

编辑:我认为这太宽泛了。所以我搜索了一些关于 ML 和 AI 的信息,我发现了一些可能有帮助的模块,scikit-learn、PyBrain、neurolab 和RLToolkit。前两个我并没有真正理解如何开始它,对于像我这样的新手,neurolab 我还没有尝试过,因为我没有真正理解什么是人工神经网络,所以文档非常不清楚[ ANN] 以及它如何帮助我,最后一个更具体到强化学习没有任何文档。

0 投票
1 回答
1031 浏览

machine-learning - 如何计算 SARSA 的资格痕迹?

我正在尝试实现资格跟踪(前瞻性),其伪代码可以在下图中找到

在此处输入图像描述

我不确定这是什么For all s, a意思(下面的第 5 行)。他们从哪里得到这些收藏s, a

如果它是前瞻性的,是否从当前状态循环向前观察s'

你调整每一个e(s, a)

0 投票
2 回答
1134 浏览

python - 您如何使用强化学习更新函数逼近中的权重?

我的梯度下降 SARSA 不断地以指数方式增加权重。在第 4 集第 17 步,值已经是 nan

例如:

我不知道去哪里寻找我犯的错误。这是一些代码FWIW:

我有大约 183 个二进制特征。

0 投票
1 回答
383 浏览

nlp - NLTK NER:持续学习

我一直在尝试使用 NLTK 的 NER 功能。我想从文章中提取这些实体。我知道这样做并不完美,但我想知道在手动标记 NE 之间是否有人为干预,会改善吗?

如果是,是否可以使用 NLTK 中的现有模型来持续训练模型。(半监督培训)

0 投票
1 回答
237 浏览

python - Pybrain 强化学习动态输出

你能在动态变化的输出上使用 Pybrain 的强化学习吗?例如天气:假设您有 2 个属性 Humidity 和 Wind,输出将是 Rain 或 NO_Rain(在我正在使用的文本文件中,所有属性都将具有 1 表示真或 0 表示假)。你能在这类问题上使用强化学习吗?我问的原因是有时即使我们有湿度,也不能保证它会下雨。

0 投票
1 回答
86 浏览

matlab - 值函数的matlab仿真

我想模拟以下值函数。

d 是一个决策矩阵

x=t+β * w'

y=alpha*(c+beta * v')

v=max{x , y}

如果 x>y 则 v=x 并且 d= 2 如果 x

a=phi * t+beta * w'

b=phi * c+beta * v'

w=max{a , b}

如果 a>b 则 w=a 且 d= 2 如果 a

其中右侧的 w' 和 v' 是下一个周期值函数。

我需要跟踪决策矩阵 d。

我在matlab中做了以下编码。但这似乎不对。我的编码有什么问题?