问题标签 [stable-baselines]

问问题

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

86 问题

0 投票

0 回答

4 浏览

python - 通过 Tensorboarg 中的回调记录一个标量值

我正在使用稳定的基线 3及其tensorboard 集成来监控我的模型和设置。我想每次都在张量板上绘制一个标量，标量是在self.step()方法中触发的。我做了一个CustomTensorboardCallback，但问题是回调是由默认的 num_steps 调用的，而不是在触发变量时调用的。如果有人可以帮助我，我将不胜感激。我不太确定如何使用 EventCallback 来实现这种行为

0 投票

0 回答

11 浏览

pytorch - RL - PyTorch-DQN 的稳定基线：为什么 CustomModel 不学习？

我想使用稳定的基线 RL 实现并使用自定义模型。我简化了我的情况。我有三个问题：

为什么它不学会预测 2？根据初始化它预测 4, 7, 3, ...
我假设 CustomCombinedExtractor 在前向传递中产生最终的离散预测。所以这将是 10 维。但稳定的基线要求它输出 64 暗向量。这是为什么？之后是否应用了进一步的模型？我怎样才能停用它？
我们有哪些明智的选择：“lr_schedule”？

这里的代码：

pytorch reinforcement-learning stable-baselines

0 投票

0 回答

25 浏览

python - model.pkl 文件包含三个点 (...) 是什么意思。这是什么意思？

我以 .pkl 格式保存模型 (PPO2)。当我使用 pickle 库读取文件时，它显示三个点 (...)。通常，三点表示数据在查看时超出范围。但是，在这里我认为这意味着其他东西或数据无法检索。有没有办法检索这些值？我需要它，因为我想访问我的网络权重。

通过以下方式保存模型：

通过使用导入：

在这里，正如您看到的垂直和水平三个点 (...)，

如果我在泡菜文件中插入所有元组，则输出：使用以下代码，

任何建议和帮助将不胜感激。

解决方法如下，

python machine-learning pickle stable-baselines

0 投票

0 回答

7 浏览

reinforcement-learning - model.learn(total_timesteps=500000) 在自定义开放式 AI 健身房环境中不会导致模型改进

我正在尝试遵循一位受欢迎的 youtuber 制作的关于自定义 openai 健身房环境的教程，但无法复制他的结果。

我最初将我的模型设置为

model = PPO("MlpPolicy", env, verbose=1, tensorboard_log=log_path)

训练了 500K 步

model.learn(total_timesteps=500000)

但它似乎根本没有改善，奖励保持在 0，标准在 58-60 之间我检查了这个

自定义环境是

任何帮助将不胜感激！

reinforcement-learning openai-gym stable-baselines

0 投票

0 回答

10 浏览

python - 稳定的基线动作空间

如何在稳定的基线中拥有多个动作空间。我的动作空间是离散和盒子的组合。我试过 gym.spaces.Tuple([gym.spaces.Discrete(5), gym.spaces.Box(low=0.001, high=1.0, shape=(1,))]) 和 gym.spaces.Dict 但脚本似乎冻结没有任何错误或警告。我正在使用来自 sb3 的 PPO2

python reinforcement-learning stable-baselines

0 投票

1 回答

24 浏览

reinforcement-learning - 稳定基线 - PPO 遍历数据框进行学习

PPO 模型不会遍历整个数据框 .. 它基本上多次重复第一步（本例中为 10,000 次）？

在这种情况下，DF 的形状是 (5476, 28)，每一步的 obs 形状是：(60, 28).. 我没有看到它遍历整个 DF。

谢谢！

reinforcement-learning openai-gym stable-baselines

1 2 3 4 5 6 7 8 9 10

问题标签 [stable-baselines]

python - 通过 Tensorboarg 中的回调记录一个标量值

pytorch - RL - PyTorch-DQN 的稳定基线：为什么 CustomModel 不学习？

python - model.pkl 文件包含三个点 (...) 是什么意思。这是什么意思？

reinforcement-learning - model.learn(total_timesteps=500000) 在自定义开放式 AI 健身房环境中不会导致模型改进

python - 稳定的基线动作空间

reinforcement-learning - 稳定基线 - PPO 遍历数据框进行学习

Reference