问题标签 [stable-baselines]

问问题

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

86 问题

0 投票

0 回答

11 浏览

callback - 嵌套模型训练时，张量板记录到错误的文件

我有一个外部模型（对手），其训练过程的一部分是训练两个模型，主角和对手。主角和对手使用具有张量板日志记录的现有代码（https://github.com/nathanlct/trajectory-training-icra）。但是当我从外部模型运行这些模型时，没有任何内容被添加到主角或对手的事件文件中，我将其日志目录分别设置为example_dir/protag和example_dir/antag。然而，当我--tensorboard_log=example_dir在外部模型（即 stable_baselines3 PPO）中设置时，主角和对手的日志记录都会进入 example_dir 中的事件文件。这是一个问题，因为我无法分辨哪些信息来自主角，哪些信息来自对手。我怎样才能将登录引导到相应的example_dir/antag和example_dir/protag文件夹？

0 投票

0 回答

34 浏览

python - 使用 Deta 部署使用 stable-baselines3 的 FastAPI 应用程序

我开发了一个基于机器学习的应用程序，它使用了stable-baselines3库（一个强化学习库）。使用 uvicorn 在本地测试时，该应用程序运行良好。但是，当我将应用程序部署到 Deta 时，它会引发以下错误：

我一一删除了所有依赖项，现在我确定问题出在 stable-baselines3 中，我不知道为什么？请对此有任何解释/解决方案？

python fastapi stable-baselines

0 投票

1 回答

93 浏览

python - 自定义健身房的稳定基线 3 记录奖励

我有这个自定义回调来在我的自定义矢量化环境中记录奖励，但是奖励一如既往地出现在控制台中 [0] 并且根本没有记录在张量板中

这是主要功能的一部分

python reinforcement-learning openai-gym stable-baselines

0 投票

1 回答

217 浏览

reinforcement-learning - 稳定基线 3 模型中基于 LSTM 的策略

我正在尝试使用 stable-baselines3 库制作 PPO 模型。我想使用一个带有 LSTM 层的策略网络。但是，我在图书馆的网站上找不到这种可能性，尽管它存在于https://stable-baselines.readthedocs.io/en/master/modules/policies.html#stable_baselines 的早期版本中。 common.policies.MlpLstmPolicy。

这种可能性是否存在于 stable-baselines3 （非 stable-baselines）中？如果没有，我还有其他可能吗？谢谢。

reinforcement-learning stable-baselines

0 投票

0 回答

10 浏览

reinforcement-learning - 具有不同大小输入的强化学习

我正在使用 stable_baselines3 算法进行强化学习。模拟之间的输入大小应该不同（一些模拟涉及代理接收信息的 4 个对象，一些有 9 个对象，...），但在一个给定模拟的所有步骤中，大小是固定的。

代理有没有办法使用 stable_baselines 算法（我目前正在使用 PPO）学习具有不同输入大小的模拟？否则我有什么选择？我已阅读SB3 关于自定义政策的文档，但不明白它是否或如何回答我的问题。

reinforcement-learning stable-baselines

0 投票

2 回答

179 浏览

python - 安装稳定基线的正确方法？

我正在尝试安装 stable-baselines 并运行在线手册入门部分的前两行，但没有任何选项有效。我从

现在当我运行时：

我明白了

这显然是因为 tensorflow 版本 2 没有 tensorflow.contrib。但是第 2 版是在 2019 年 9 月发布的。我真的必须只使用 tensorflow 第 1 版吗？

安装 stable-baselines 并运行这个简单示例的正确方法是什么？

我试过了

在虚拟环境中。这给出了一个不同的错误：

python stable-baselines

0 投票

0 回答

29 浏览

python - 稳定的Baselines3 load_results，存储什么以及如何保存更多数据

要从 stableBaselines3 学习算法加载结果，x, y = ts2xy(load_results(output_dir)) 显然使用了类似的东西。load_results生成一个包含 4 列的数据框：index，这将是所讨论的模拟的索引，r，这将是该模拟期间的总奖励，l（这是？），以及t，这将是自学习开始以来的时间（？）。

代表什么l？

除了每次模拟的奖励（步数，其他自定义指标......）之外，是否可以保存更多数据？

python reinforcement-learning openai-gym stable-baselines

0 投票

0 回答

7 浏览

stable-baselines - 以有限的内存运行稳定的基线

我正在尝试在一个环境（来自 mujoco 的 Walker2d）fam 上训练一个具有稳定基线的 SAC 代理，时间步长为 5M。

但是，此过程存在内存泄漏，因为 SAC 在每一步都在保存一些内容，并且内存不断增长。有没有办法告诉稳定的基线来限制使用的内存？

stable-baselines

0 投票

0 回答

43 浏览

python - 如何使用 stable-baselines3 做 RL+图神经网络

我是 stable-baselines3 的新手，正在尝试解决一个玩具图神经网络问题。我之前有一个使用数组的翻转示例。问题是这样的：给定一个包含 10 个随机位的列表和一个翻转位的操作，找到一种翻转位以将它们全部设置为 1 的方法。显然，您可以通过翻转当前为 0 但系统具有的位来做到这一点学习这个。

我想做同样的事情，输入是带有节点权重的简单线性图而不是数组。我不知道该怎么做。以下代码片段将制作一个有 10 个节点的线性图，将节点权重添加到每个节点并将其转换为 dgl 图

当我在位翻转示例中使用线性数组时，我的环境是这样的：

完成数组版本中代码的最后几行很简单：

我不能再spaces对图表使用稳定基线了，那么对于这个玩具问题，让稳定基线与我的 dgl 图表交互的正确方法是什么？

python reinforcement-learning stable-baselines dgl

0 投票

0 回答

30 浏览

python-3.x - 在 OpenAI 健身房中，盒子空间总是返回浮点值

我正在尝试使用 OpenAI Gym 开始强化学习。我试图解决 Hotter-Colder 练习（https://gym.openai.com/envs/HotterColder-v0/）。

对于动作空间，我试图传递一个 Box 空间以确保它是一个连续的空间。即使我将类型指定为 int32，当我通过 model.learn 训练模型时，它总是将值作为介于 0 和 2.5 之间的 float32。

正如您在下面的代码中看到的，action_space 使用 Box 指定为 int32，但在训练和预测阶段，动作值始终为 array[float32]。此外，不是得到 1.0 和 100.0 之间的值，而是这些值似乎只停留在 0.0 和 2.5 之间。有谁知道如何解决这个问题？

非常感谢。

这是我的代码：

python-3.x reinforcement-learning openai-gym stable-baselines

1 2 3 4 5 6 7 8 9 10

问题标签 [stable-baselines]

Reference