问题标签 [reinforcement-learning]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
6 回答
32018 浏览

algorithm - 如何将强化学习应用于连续动作空间?

我试图让代理学习在强化学习设置中最好地执行某些任务所需的鼠标移动(即奖励信号是学习的唯一反馈)。

我希望使用 Q-learning 技术,但是虽然我找到了一种将这种方法扩展到连续状态空间的方法,但我似乎无法弄清楚如何解决连续动作空间的问题。

我可以强制所有鼠标移动具有一定的幅度并且仅在一定数量的不同方向上,但是任何使动作离散的合理方法都会产生巨大的动作空间。由于标准 Q-learning 要求智能体评估所有可能的动作,因此这种近似在任何实际意义上都不能解决问题。

0 投票
1 回答
1557 浏览

testing - XOR Hebbian 测试/示例神经网络

我刚刚完成了一些运行 hebbian 学习前馈神经网络的代码。我之前做过一个反向传播神经网络,我做的第一件事就是确保它有效,也尝试了 XOR 问题。

我应该怎么做才能测试我的 hebbian 学习神经网络?

是否有一种 hebbian 方法来学习 XOR 或神经网络的“Hello World”行中的其他问题?

0 投票
2 回答
2065 浏览

artificial-intelligence - 我应该为 Connect 4 使用什么机器学习算法?

我有一个擅长玩 Connect 4(使用 minimax)的 AI。现在我想使用一些机器学习算法来从我拥有的这个 AI 中学习,我想通过让它们互相对抗来做到这一点。

什么算法对此有好处,我将如何训练它?如果有人能说出一种这样做的方法,我可以很容易地自己谷歌它。但现在我不知道谷歌是什么......

0 投票
1 回答
407 浏览

machine-learning - 构建实时游戏玩家模拟器的首选机器学习技术是什么?

我已经着手构建一个学习玩俄罗斯方块的人工智能引擎,即一个可以提高它的性能的引擎,也许通过调整它的启发式等等。假设我已经把 GUI 排除在外——我将从哪里开始构建引擎?作为初学者,我将使用哪些资源来理解其中涉及的机器学习概念?

特别是,我正在寻找基于代码和实际示例的解释性材料,而不是对该主题的数学处理。

0 投票
1 回答
7651 浏览

c++ - C++ 强化学习库

我一直在寻找一个实现强化学习算法的 C++ 库,但对结果不是很满意。

我从 TU Graz 找到了Reinforcement Learning Toolbox 2.0,但不幸的是,这个项目太旧了,我无法编译它。

还有来自Hado van Hasselt的代码。它看起来很有希望,但似乎没有得到积极维护。

您使用哪些库进行 C++ 中的强化学习?

0 投票
2 回答
1349 浏览

java - 连续四局游戏强化学习的最佳算法

对于连续四场比赛,强化学习的最佳算法是什么。我想构建一个四连胜的游戏,它将使用其中一种 RL 算法来玩:Q-Learning、MinMax 等。

考虑到我正在使用 Java,最好使用什么。

0 投票
1 回答
1642 浏览

java - 想实现一个强化学习连接四个代理

我想实现一个强化学习连接四个代理。我不确定如何这样做以及它应该看起来如何。我熟悉强化学习的理论方面,但不知道应该如何实施。

应该怎么做?我应该使用 TD(lambda) 还是 Q-learning,MinMax 树是如何参与其中的?我的 Q 和 V 函数如何工作(行动质量和状态价值)。我如何给这些东西打分?我改进的基本政策是什么,我的模式是什么?另一件事是我应该如何保存状态或 statesXactions(取决于学习算法)。我应该使用神经网络吗?如果是,如何?

我正在使用 JAVA。

谢谢。

0 投票
2 回答
1801 浏览

reinforcement-learning - Q-Learning 和 TD(lambda) 的奖励

这两种 RL 技术中的奖励是如何工作的?我的意思是,他们都改进了政策及其评估,但没有改善奖励。我如何从一开始就猜到它们?

0 投票
3 回答
1409 浏览

artificial-intelligence - 如何在 Q-Learning 中使用 MinMax 树?

如何在 Q-Learning 中使用 MinMax 树?

我想实现一个 Q-Learning 连接四个代理,并听说在其中添加 MinMax 树会有所帮助。

0 投票
2 回答
847 浏览

machine-learning - 使用 neo4j 进行强化学习:制作 2 个图副本与将所有值的 2 个副本存储在 1 个图上

我计划运行一个机器学习算法来学习节点值和边权重。该算法与此处的值迭代算法非常相似。每个节点代表一个位置,每条边都是通往新位置的路径。每个节点和边都维护一个值,该值表示它的可取性。这些值在每次迭代时都会根据前一次迭代的值进行更新。

我计划使用 neo4j 作为后端。现在将有大约 600,000 个节点和 100,000,000 条边,但以后可能会添加更多(该图不适合内存)。保留上一次迭代中的值的最佳方法是什么?想到的2种方法是:

  1. 克隆当前数据库并使用 1 个副本作为“当前迭代”副本和 1 个副本作为“上一次迭代”副本。
  2. 在每次迭代结束时,将每个节点和边的所有值移动到“上一次迭代”属性。

人们通常如何做到这一点?有没有更好的办法?