问题标签 [stable-baselines]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
0 回答
4 浏览

python - 通过 Tensorboarg 中的回调记录一个标量值

我正在使用稳定的基线 3及其tensorboard 集成来监控我的模型和设置。我想每次都在张量板上绘制一个标量,标量是在self.step()方法中触发的。我做了一个CustomTensorboardCallback,但问题是回调是由默认的 num_steps 调用的,而不是在触发变量时调用的。如果有人可以帮助我,我将不胜感激。我不太确定如何使用 EventCallback 来实现这种行为

0 投票
0 回答
11 浏览

pytorch - RL - PyTorch-DQN 的稳定基线:为什么 CustomModel 不学习?

我想使用稳定的基线 RL 实现并使用自定义模型。我简化了我的情况。我有三个问题:

  • 为什么它不学会预测 2?根据初始化它预测 4, 7, 3, ...
  • 我假设 CustomCombinedExtractor 在前向传递中产生最终的离散预测。所以这将是 10 维。但稳定的基线要求它输出 64 暗向量。这是为什么?之后是否应用了进一步的模型?我怎样才能停用它?
  • 我们有哪些明智的选择:“lr_schedule”?

这里的代码:

0 投票
0 回答
25 浏览

python - model.pkl 文件包含三个点 (...) 是什么意思。这是什么意思?

我以 .pkl 格式保存模型 (PPO2)。当我使用 pickle 库读取文件时,它显示三个点 (...)。通常,三点表示数据在查看时超出范围。但是,在这里我认为这意味着其他东西或数据无法检索。有没有办法检索这些值?我需要它,因为我想访问我的网络权重。

通过以下方式保存模型:

通过使用导入:

在这里,正如您看到的垂直和水平三个点 (...),

如果我在泡菜文件中插入所有元组,则输出:使用以下代码,

在此处输入图像描述

任何建议和帮助将不胜感激。

解决方法如下

在此处输入图像描述

0 投票
0 回答
7 浏览

reinforcement-learning - model.learn(total_timesteps=500000) 在自定义开放式 AI 健身房环境中不会导致模型改进

我正在尝试遵循一位受欢迎的 youtuber 制作的关于自定义 openai 健身房环境的教程,但无法复制他的结果。

我最初将我的模型设置为

model = PPO("MlpPolicy", env, verbose=1, tensorboard_log=log_path)

训练了 500K 步

model.learn(total_timesteps=500000)

但它似乎根本没有改善,奖励保持在 0,标准在 58-60 之间我检查了这个

自定义环境是

任何帮助将不胜感激!

0 投票
0 回答
10 浏览

python - 稳定的基线动作空间

如何在稳定的基线中拥有多个动作空间。我的动作空间是离散和盒子的组合。我试过 gym.spaces.Tuple([gym.spaces.Discrete(5), gym.spaces.Box(low=0.001, high=1.0, shape=(1,))]) 和 gym.spaces.Dict 但脚本似乎冻结没有任何错误或警告。我正在使用来自 sb3 的 PPO2

0 投票
1 回答
24 浏览

reinforcement-learning - 稳定基线 - PPO 遍历数据框进行学习

PPO 模型不会遍历整个数据框 .. 它基本上多次重复第一步(本例中为 10,000 次)?

在这种情况下,DF 的形状是 (5476, 28),每一步的 obs 形状是:(60, 28).. 我没有看到它遍历整个 DF。

谢谢!