问题标签 [stable-baselines]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
0 回答
11 浏览

callback - 嵌套模型训练时,张量板记录到错误的文件

我有一个外部模型(对手),其训练过程的一部分是训练两个模型,主角和对手。主角和对手使用具有张量板日志记录的现有代码(https://github.com/nathanlct/trajectory-training-icra)。但是当我从外部模型运行这些模型时,没有任何内容被添加到主角或对手的事件文件中,我将其日志目录分别设置为example_dir/protagexample_dir/antag。然而,当我--tensorboard_log=example_dir在外部模型(即 stable_baselines3 PPO)中设置时,主角和对手的日志记录都会进入 example_dir 中的事件文件。这是一个问题,因为我无法分辨哪些信息来自主角,哪些信息来自对手。我怎样才能将登录引导到相应的example_dir/antagexample_dir/protag文件夹?

0 投票
0 回答
34 浏览

python - 使用 Deta 部署使用 stable-baselines3 的 FastAPI 应用程序

我开发了一个基于机器学习的应用程序,它使用了stable-baselines3库(一个强化学习库)。使用 uvicorn 在本地测试时,该应用程序运行良好。但是,当我将应用程序部署到 Deta 时,它会引发以下错误:

我一一删除了所有依赖项,现在我确定问题出在 stable-baselines3 中,我不知道为什么?请对此有任何解释/解决方案?

0 投票
1 回答
93 浏览

python - 自定义健身房的稳定基线 3 记录奖励

我有这个自定义回调来在我的自定义矢量化环境中记录奖励,但是奖励一如既往地出现在控制台中 [0] 并且根本没有记录在张量板中

这是主要功能的一部分

0 投票
1 回答
217 浏览

reinforcement-learning - 稳定基线 3 模型中基于 LSTM 的策略

我正在尝试使用 stable-baselines3 库制作 PPO 模型。我想使用一个带有 LSTM 层的策略网络。但是,我在图书馆的网站上找不到这种可能性,尽管它存在于https://stable-baselines.readthedocs.io/en/master/modules/policies.html#stable_baselines 的早期版本中。 common.policies.MlpLstmPolicy

这种可能性是否存在于 stable-baselines3 (非 stable-baselines)中?如果没有,我还有其他可能吗?谢谢。

0 投票
0 回答
10 浏览

reinforcement-learning - 具有不同大小输入的强化学习

我正在使用 stable_baselines3 算法进行强化学习。模拟之间的输入大小应该不同(一些模拟涉及代理接收信息的 4 个对象,一些有 9 个对象,...),但在一个给定模拟的所有步骤中,大小是固定的。

代理有没有办法使用 stable_baselines 算法(我目前正在使用 PPO)学习具有不同输入大小的模拟?否则我有什么选择?我已阅读SB3 关于自定义政策的文档,但不明白它是否或如何回答我的问题。

0 投票
2 回答
179 浏览

python - 安装稳定基线的正确方法?

我正在尝试安装 stable-baselines 并运行在线手册入门部分的前两行,但没有任何选项有效。我从

现在当我运行时:

我明白了

这显然是因为 tensorflow 版本 2 没有 tensorflow.contrib。但是第 2 版是在 2019 年 9 月发布的。我真的必须只使用 tensorflow 第 1 版吗?

安装 stable-baselines 并运行这个简单示例的正确方法是什么?


我试过了

在虚拟环境中。这给出了一个不同的错误:

0 投票
0 回答
29 浏览

python - 稳定的Baselines3 load_results,存储什么以及如何保存更多数据

要从 stableBaselines3 学习算法加载结果,x, y = ts2xy(load_results(output_dir)) 显然使用了类似的东西。load_results生成一个包含 4 列的数据框:index,这将是所讨论的模拟的索引,r,这将是该模拟期间的总奖励,l(这是?),以及t,这将是自学习开始以来的时间(?)。

代表什么l

除了每次模拟的奖励(步数,其他自定义指标......)之外,是否可以保存更多数据?

0 投票
0 回答
7 浏览

stable-baselines - 以有限的内存运行稳定的基线

我正在尝试在一个环境(来自 mujoco 的 Walker2d)fam 上训练一个具有稳定基线的 SAC 代理,时间步长为 5M。

但是,此过程存在内存泄漏,因为 SAC 在每一步都在保存一些内容,并且内存不断增长。有没有办法告诉稳定的基线来限制使用的内存?

0 投票
0 回答
43 浏览

python - 如何使用 stable-baselines3 做 RL+图神经网络

我是 stable-baselines3 的新手,正在尝试解决一个玩具图神经网络问题。我之前有一个使用数组的翻转示例。问题是这样的:给定一个包含 10 个随机位的列表和一个翻转位的操作,找到一种翻转位以将它们全部设置为 1 的方法。显然,您可以通过翻转当前为 0 但系统具有的位来做到这一点学习这个。

我想做同样的事情,输入是带有节点权重的简单线性图而不是数组。我不知道该怎么做。以下代码片段将制作一个有 10 个节点的线性图,将节点权重添加到每个节点并将其转换为 dgl 图

当我在位翻转示例中使用线性数组时,我的环境是这样的:

完成数组版本中代码的最后几行很简单:

我不能再spaces对图表使用稳定基线了,那么对于这个玩具问题,让稳定基线与我的 dgl 图表交互的正确方法是什么?

0 投票
0 回答
30 浏览

python-3.x - 在 OpenAI 健身房中,盒子空间总是返回浮点值

我正在尝试使用 OpenAI Gym 开始强化学习。我试图解决 Hotter-Colder 练习(https://gym.openai.com/envs/HotterColder-v0/)。

对于动作空间,我试图传递一个 Box 空间以确保它是一个连续的空间。即使我将类型指定为 int32,当我通过 model.learn 训练模型时,它总是将值作为介于 0 和 2.5 之间的 float32。

正如您在下面的代码中看到的,action_space 使用 Box 指定为 int32,但在训练和预测阶段,动作值始终为 array[float32]。此外,不是得到 1.0 和 100.0 之间的值,而是这些值似乎只停留在 0.0 和 2.5 之间。有谁知道如何解决这个问题?

非常感谢。

这是我的代码: