问题标签 [reinforcement-learning]

问问题

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

2122 问题

0 投票

6 回答

32018 浏览

algorithm - 如何将强化学习应用于连续动作空间？

我试图让代理学习在强化学习设置中最好地执行某些任务所需的鼠标移动（即奖励信号是学习的唯一反馈）。

我希望使用 Q-learning 技术，但是虽然我找到了一种将这种方法扩展到连续状态空间的方法，但我似乎无法弄清楚如何解决连续动作空间的问题。

我可以强制所有鼠标移动具有一定的幅度并且仅在一定数量的不同方向上，但是任何使动作离散的合理方法都会产生巨大的动作空间。由于标准 Q-learning 要求智能体评估所有可能的动作，因此这种近似在任何实际意义上都不能解决问题。

0 投票

1 回答

1557 浏览

testing - XOR Hebbian 测试/示例神经网络

我刚刚完成了一些运行 hebbian 学习前馈神经网络的代码。我之前做过一个反向传播神经网络，我做的第一件事就是确保它有效，也尝试了 XOR 问题。

我应该怎么做才能测试我的 hebbian 学习神经网络？

是否有一种 hebbian 方法来学习 XOR 或神经网络的“Hello World”行中的其他问题？

testing machine-learning neural-network reinforcement-learning

0 投票

2 回答

2065 浏览

artificial-intelligence - 我应该为 Connect 4 使用什么机器学习算法？

我有一个擅长玩 Connect 4（使用 minimax）的 AI。现在我想使用一些机器学习算法来从我拥有的这个 AI 中学习，我想通过让它们互相对抗来做到这一点。

什么算法对此有好处，我将如何训练它？如果有人能说出一种这样做的方法，我可以很容易地自己谷歌它。但现在我不知道谷歌是什么......

artificial-intelligence machine-learning neural-network reinforcement-learning

0 投票

1 回答

407 浏览

machine-learning - 构建实时游戏玩家模拟器的首选机器学习技术是什么？

我已经着手构建一个学习玩俄罗斯方块的人工智能引擎，即一个可以提高它的性能的引擎，也许通过调整它的启发式等等。假设我已经把 GUI 排除在外——我将从哪里开始构建引擎？作为初学者，我将使用哪些资源来理解其中涉及的机器学习概念？

特别是，我正在寻找基于代码和实际示例的解释性材料，而不是对该主题的数学处理。

machine-learning reinforcement-learning tetris

0 投票

1 回答

7651 浏览

c++ - C++ 强化学习库

我一直在寻找一个实现强化学习算法的 C++ 库，但对结果不是很满意。

我从 TU Graz 找到了Reinforcement Learning Toolbox 2.0，但不幸的是，这个项目太旧了，我无法编译它。

还有来自Hado van Hasselt的代码。它看起来很有希望，但似乎没有得到积极维护。

您使用哪些库进行 C++ 中的强化学习？

c++machine-learning reinforcement-learning

0 投票

2 回答

1349 浏览

java - 连续四局游戏强化学习的最佳算法

对于连续四场比赛，强化学习的最佳算法是什么。我想构建一个四连胜的游戏，它将使用其中一种 RL 算法来玩：Q-Learning、MinMax 等。

考虑到我正在使用 Java，最好使用什么。

java reinforcement-learning

0 投票

1 回答

1642 浏览

java - 想实现一个强化学习连接四个代理

我想实现一个强化学习连接四个代理。我不确定如何这样做以及它应该看起来如何。我熟悉强化学习的理论方面，但不知道应该如何实施。

应该怎么做？我应该使用 TD(lambda) 还是 Q-learning，MinMax 树是如何参与其中的？我的 Q 和 V 函数如何工作（行动质量和状态价值）。我如何给这些东西打分？我改进的基本政策是什么，我的模式是什么？另一件事是我应该如何保存状态或 statesXactions（取决于学习算法）。我应该使用神经网络吗？如果是，如何？

我正在使用 JAVA。

谢谢。

java reinforcement-learning

0 投票

2 回答

1801 浏览