问题标签 [stable-baselines]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
python - 通过 Tensorboarg 中的回调记录一个标量值
我正在使用稳定的基线 3及其tensorboard 集成来监控我的模型和设置。我想每次都在张量板上绘制一个标量,标量是在self.step()方法中触发的。我做了一个CustomTensorboardCallback,但问题是回调是由默认的 num_steps 调用的,而不是在触发变量时调用的。如果有人可以帮助我,我将不胜感激。我不太确定如何使用 EventCallback 来实现这种行为
pytorch - RL - PyTorch-DQN 的稳定基线:为什么 CustomModel 不学习?
我想使用稳定的基线 RL 实现并使用自定义模型。我简化了我的情况。我有三个问题:
- 为什么它不学会预测 2?根据初始化它预测 4, 7, 3, ...
- 我假设 CustomCombinedExtractor 在前向传递中产生最终的离散预测。所以这将是 10 维。但稳定的基线要求它输出 64 暗向量。这是为什么?之后是否应用了进一步的模型?我怎样才能停用它?
- 我们有哪些明智的选择:“lr_schedule”?
这里的代码:
reinforcement-learning - model.learn(total_timesteps=500000) 在自定义开放式 AI 健身房环境中不会导致模型改进
我正在尝试遵循一位受欢迎的 youtuber 制作的关于自定义 openai 健身房环境的教程,但无法复制他的结果。
我最初将我的模型设置为
model = PPO("MlpPolicy", env, verbose=1, tensorboard_log=log_path)
训练了 500K 步
model.learn(total_timesteps=500000)
但它似乎根本没有改善,奖励保持在 0,标准在 58-60 之间我检查了这个
自定义环境是
任何帮助将不胜感激!
python - 稳定的基线动作空间
如何在稳定的基线中拥有多个动作空间。我的动作空间是离散和盒子的组合。我试过 gym.spaces.Tuple([gym.spaces.Discrete(5), gym.spaces.Box(low=0.001, high=1.0, shape=(1,))]) 和 gym.spaces.Dict 但脚本似乎冻结没有任何错误或警告。我正在使用来自 sb3 的 PPO2
reinforcement-learning - 稳定基线 - PPO 遍历数据框进行学习
PPO 模型不会遍历整个数据框 .. 它基本上多次重复第一步(本例中为 10,000 次)?
在这种情况下,DF 的形状是 (5476, 28),每一步的 obs 形状是:(60, 28).. 我没有看到它遍历整个 DF。
谢谢!