问题标签 [stable-baselines]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
0 回答
145 浏览

python - KeyError:在使用 OpenAI stable-baselines3 和健身房尝试多智能体强化学习时出现“观察”

我试图在这里使用饥饿的鹅健身房训练 PPO:

但我的游戏只玩了一步。在调试 ON 运行后,我得到以下跟踪:

所以我在vscode中调试了更多。从下面的屏幕截图中可以看出,observationdesired_goal键都不存在于observation_dict.

图片

这也是我调试上述调用的方式:

图片

我是否错误地使用了 API 以导致这种情况发生(我是 API 新手)?(或者这可能是一个错误,我觉得这不太可能。)

Colab 笔记本模型

0 投票
1 回答
609 浏览

python-3.x - 如何使用稳定的基线3让模型在循环中学习?

在来自 stable baselines3 网站( https://stable-baselines3.readthedocs.io/en/master/modules/ppo.html )的示例代码中,模型首先会通过model.learn(total_timesteps=25000)line 学习,然后可以在播放循环中使用.

现在,由于我希望能够在代理学习过程中监控不同的参数(来自自定义环境),所以我的问题是:如何model.learn在播放循环中使用?

0 投票
1 回答
826 浏览

python - Understanding custom policies in stable-baselines3

I was trying to understand the policy networks in stable-baselines3 from this doc page.

  1. As explained in this example, to specify custom CNN feature extractor, we extend BaseFeaturesExtractor class and specify it in policy_kwarg.features_extractor_class with first param CnnPolicy:

    Q1. Can we follow same approach for custom MLP feature extractor?

  2. As explained in this example, to specify custom MLP feature extractor, we extend ActorCriticPolicy class and override _build_mlp_extractor() and pass it as first param:

    Q2. Can we follow same approach for custom CNN feature extractor?

  3. I feel either we can have CNN extractor or MLP extractor. So it makes no sense to pass MlpPolicy as first param to model and then specify CNN feature extractor in policy_kwarg.features_extractor_class as in this example. This result in following policy (containing both features_extractor and mlp_extractor), which I feel is incorrect:

    Q3. Am I correct with this understanding? If yes, then is one of the MLP or CNN feature extractor ignored?

0 投票
0 回答
54 浏览

deep-learning - 奖励如何融入学习过程?

我有一个环境,我正在尝试使用baseline3 库来学习系统动力学。由于我的示例很大,因此我使用以下示例来澄清我遇到的问题。

问题

  1. 环境改写实际上在哪里融入了学习过程?

  2. 奖励有上限和下限吗?

我的代码:

我还找不到有关此的任何信息。

0 投票
2 回答
308 浏览

python - OpenAI Gym 注册中缺少什么?

ValueError: xxx not found in gym registry, you maybe meant尝试在稳定的基线中注册自定义环境时得到 3。我尝试了以下命令:

结果是:

你看到哪个是错误的吗?

0 投票
0 回答
134 浏览

python-3.x - OpenAI GYM/stable_baselines3 和多核

似乎 GYM/stable_baselines3 与机器上的核心数量的扩展性很差。是“正常的”吗?还是我机器上的硬件配置问题?FPS 严重下降(随着时间的增加)。这是一些mwe

128 核:~100 FPS
$ time python3 mwe.py
real 2m35,323s
user 139m27,725s
sys 18m44,585s

2 核
$ taskset --cpu-list 1,2 python3 mwe.py
1300 FPS
真实 0m9,331s
用户 0m12,990s
sys 0m0,244s

32 核
$ time taskset --cpu-list 0-31 python3 mwe.py
800 FPS
真实 0m16,181s
用户 2m54,283s
sys 0m25,847s

0 投票
0 回答
35 浏览

reinforcement-learning - PPO 算法异常

我正在尝试使用类似于 OpenAI Gym 中的 HandReach-v0 的环境。但是,当我从稳定的基线 3 运行 PPO 算法时,我收到以下错误:

当我调用 model.learn(total_timesteps = 25000) 时,错误线程开始

当我运行时:

我得到:

0 投票
0 回答
159 浏览

reinforcement-learning - 在 Dict 观察空间中运行 StableBaselines3

我有一个自定义环境,它返回一个 dict 观察空间,如下所示:

但是,像 PPO 这样的算法不能使用字典空间。当我尝试过滤掉观察空间时,我得到如下错误:

我如何过滤掉:

错误跟踪:

0 投票
1 回答
356 浏览

openai-gym - 稳定基线多输入策略

我尝试通过以下方式使用 MultiInputPolicy:

但是,我收到一个错误:

请帮忙。我怎样才能解决这个问题?

0 投票
0 回答
56 浏览

deep-learning - OpenAI 健身房录制视频

我想录制我创建的模型的预测视频。请帮忙:

我目前正在使用 OpenAI Gym 包装器中的 VideoRecorder。现在它只是给出了一个分段错误。