问题标签 [stable-baselines]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
openai-gym - Monitor Wrapper OpenAI GYM
我使用 Monitor 包装器获得了断断续续的视频。详细地说,当我包装一个机器人环境时,比如 FetchReach-v1。结果视频不流畅。它的fps非常低。我该如何解决这个问题?
python - stable_baselines 3 不存储 tensorboard_log
我刚刚进入强化学习。我的模型不会在给定目录中创建任何文件。我究竟做错了什么?
经过训练的模型确实可以正常工作。
python - 稳定基线的替代方案3
你能推荐一些我可以用来训练我的代理进行强化学习的稳定基线的替代方案吗?
Ps 我正在使用健身房迷你网格环境,所以告诉我那些在这个环境中工作的人。
python - stable_baselines3 中 DQN 中的学习率调度程序
我正在尝试使用gym 和 stable-baselines3 进行强化学习,特别是使用 MountainCar 的 stable-baselines3 的 DQN 实现(https://gym.openai.com/envs/MountainCar-v0/)。
我正在尝试实现一个学习率调度程序,只要强化学习模型的奖励值在给定次数的迭代中高于某个阈值,就会降低学习率。我尝试了以下方法:
- 在定义模型时将函数而不是数字传递给 learning_rate,因为 learning_rate 可以是可调用的。但是,它似乎只在第一次迭代中运行它,以后不会更新学习率。
- 在 policy_kwargs 中将函数作为 lr_scheduler 传递:
__init__() got multiple values for argument 'lr_schedule'
但是,尽管文档(https://stable-baselines3.readthedocs.io/en/master/modules/dqn.html)在政策的 lr_schedule 参数之间没有任何区别,但我得到了错误以及我在 policy_kwards 中使用的其他参数。我该怎么做?
非常感谢!
pytorch - 具有稳定基线的 GNN
我希望使用DGL或 pytorch 几何在稳定的基线中构建我的策略和价值网络,但是我正在努力弄清楚如何发送观察结果。观察结果必须是体育课之一,spaces
但我不确定如何以这种方式发送可由 DGL 或 Pytorch 几何使用的图形对象。
我遇到的基本问题是如何发送图形观察结果以及在哪里进行必要的预处理以将 DGL 或 pytorch 几何用于自定义稳定基线网络?我可以将图表打包到一个稳定的基线观察空间中,以某种方式 DGL 或 pytorch 几何可以吸收它吗?
注意:如果有人有任何代码的 github 链接,请告诉我,我到处找
python - 如何更新 openai.gym.spaces.Dict 状态?
“AttributeError:‘dict’对象没有‘flatten’属性”。
运行以下代码时出现此错误:
我必须改变什么?
tensorflow - 重复名称导入错误的克隆存储库
我从 GitHub 克隆了一个存储库到 Google Colab。该代码使用了一些来自 TensorFlow(旧版本,1.x)的内置模块,并且存储库中有一些名称相同但略有不同的模块。我想保留这些文件名,因为我想作者也保留了这些文件名,以便它可以很好地集成到 TensorFlow 中。但是,即使我将 colab 指向存储库,colab 也会继续从 TensorFlow 导入模块。有什么建议么??
产量
aaddpg
在存储库中,stable_baselines
但不在 TensorFlow 中stable_baselines
。
python - 稳定的 Baselines3 参数 Logits 具有无效值
我正在尝试在体育比赛中运行稳定的基线,但不断收到以下错误
我已经删除了所有 NaN(替换为 0)并对数据进行了规范化,以便所有数据都在 0 和 1 之间,但仍然找不到无效值。
这是我的自定义环境:
这是我运行环境的文件:
更新:通过 stable_baselines3 使用 VecCheckNan() 和 check_env() 函数后,我收到以下错误消息。VecCheckNan() 给出:
我已经打印出第一个观察结果,那里没有 NaN。
check_env() 给出:
我的 Betting_Env 课程中有gym.Env。