问题标签 [stable-baselines]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
python-3.x - 如何使用稳定的基线3让模型在循环中学习?
在来自 stable baselines3 网站( https://stable-baselines3.readthedocs.io/en/master/modules/ppo.html )的示例代码中,模型首先会通过model.learn(total_timesteps=25000)
line 学习,然后可以在播放循环中使用.
现在,由于我希望能够在代理学习过程中监控不同的参数(来自自定义环境),所以我的问题是:如何model.learn
在播放循环中使用?
python - Understanding custom policies in stable-baselines3
I was trying to understand the policy networks in stable-baselines3 from this doc page.
As explained in this example, to specify custom CNN feature extractor, we extend
BaseFeaturesExtractor
class and specify it inpolicy_kwarg.features_extractor_class
with first paramCnnPolicy
:Q1. Can we follow same approach for custom MLP feature extractor?
As explained in this example, to specify custom MLP feature extractor, we extend
ActorCriticPolicy
class and override_build_mlp_extractor()
and pass it as first param:Q2. Can we follow same approach for custom CNN feature extractor?
I feel either we can have CNN extractor or MLP extractor. So it makes no sense to pass
MlpPolicy
as first param to model and then specify CNN feature extractor inpolicy_kwarg.features_extractor_class
as in this example. This result in following policy (containing bothfeatures_extractor
andmlp_extractor
), which I feel is incorrect:Q3. Am I correct with this understanding? If yes, then is one of the MLP or CNN feature extractor ignored?
deep-learning - 奖励如何融入学习过程?
我有一个环境,我正在尝试使用baseline3 库来学习系统动力学。由于我的示例很大,因此我使用以下示例来澄清我遇到的问题。
问题
环境改写实际上在哪里融入了学习过程?
奖励有上限和下限吗?
我的代码:
我还找不到有关此的任何信息。
python - OpenAI Gym 注册中缺少什么?
我ValueError: xxx not found in gym registry, you maybe meant
尝试在稳定的基线中注册自定义环境时得到 3。我尝试了以下命令:
结果是:
你看到哪个是错误的吗?
python-3.x - OpenAI GYM/stable_baselines3 和多核
似乎 GYM/stable_baselines3 与机器上的核心数量的扩展性很差。是“正常的”吗?还是我机器上的硬件配置问题?FPS 严重下降(随着时间的增加)。这是一些mwe
128 核:~100 FPS
$ time python3 mwe.py
real 2m35,323s
user 139m27,725s
sys 18m44,585s
2 核
$ taskset --cpu-list 1,2 python3 mwe.py
1300 FPS
真实 0m9,331s
用户 0m12,990s
sys 0m0,244s
32 核
$ time taskset --cpu-list 0-31 python3 mwe.py
800 FPS
真实 0m16,181s
用户 2m54,283s
sys 0m25,847s
reinforcement-learning - PPO 算法异常
我正在尝试使用类似于 OpenAI Gym 中的 HandReach-v0 的环境。但是,当我从稳定的基线 3 运行 PPO 算法时,我收到以下错误:
当我调用 model.learn(total_timesteps = 25000) 时,错误线程开始
当我运行时:
我得到:
reinforcement-learning - 在 Dict 观察空间中运行 StableBaselines3
我有一个自定义环境,它返回一个 dict 观察空间,如下所示:
但是,像 PPO 这样的算法不能使用字典空间。当我尝试过滤掉观察空间时,我得到如下错误:
我如何过滤掉:
错误跟踪:
openai-gym - 稳定基线多输入策略
我尝试通过以下方式使用 MultiInputPolicy:
但是,我收到一个错误:
请帮忙。我怎样才能解决这个问题?
deep-learning - OpenAI 健身房录制视频
我想录制我创建的模型的预测视频。请帮忙:
我目前正在使用 OpenAI Gym 包装器中的 VideoRecorder。现在它只是给出了一个分段错误。