问题标签 [openai]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
python - 无法播放从 OpenAi 环境录制的视频
我正在用 python 开发一些强化学习算法,我正在尝试将环境录制到视频中,但是一旦我录制了文件并且它只有 1KB 大小,我就无法播放该文件,我尝试了一个我在网上找到的示例和这也不起作用所以我认为这是一个系统问题而不是我的代码问题,我已经通过运行启用了调试,gym.logger.set_level(gym.logger.DEBUG)
但这似乎没有通过任何有用的东西,下面是我的代码
replay_episode()
这是调用该方法时我从环境中获取的日志
当我尝试播放视频时,出现错误:This file isn't playable. That might be because the file type is unsupported, the file extension is incorrect, or the file is corrupt. 0xc10100be
提前感谢您的任何回复
google-colaboratory - 发生这种情况时,我正试图使用 OpenAI 点唱机
我试图使用https://www.youtube.com/watch?v=PXxGOl-ATa4但它在最大的单元格上给了我一个错误。
FileNotFoundError:[Errno 2] 没有这样的文件或目录:'/usr/local/lib/python3.6/dist-packages/jukebox/sample.py'
我不知道该怎么办。这是我在输入框中输入的内容,这里:
mpi - ImportError:导入 MPI 时 DLL 加载失败
我正在尝试在 Windows 10 上训练 Jukebox,并且我已经按照 README 文件顶部的每个步骤进行操作。但我收到了这个错误:
我已经安装了 MPI 的 MSI 文件和 SDK。我正在使用 Miniconda 在 Python 3.7.5 上运行它。可能是什么问题?这是我运行的代码:
openai - 没有名为 retro.import 的模块 Open AI
我试图通过导入 rom 来运行 Open AI,但每当我运行时,
它回应说没有找到retro.import。
python - TypeError:'Box' 对象不可迭代
我通过以下方式添加了观察空间:
我正在尝试通过以下方式制作 q_table:
我收到以下错误:
TypeError:'Box' 对象不可迭代
有人可以帮我解决这个问题吗?如何将 Box 类型转换为列表,或者有没有其他方法可以制作 q 表?
pytorch - Actor-Critic 模型:如何在模型和动作批次之间调整大小
我是 PyTorch 和强化学习的新手,因此很抱歉,如果这条消息听起来很愚蠢或解决方案太简单,但我不知道如何解决这个问题,我已经花了几天时间研究这个问题并试图找到一个解决这个问题的方法,我做不到。如果你们中的任何人可以帮助我或至少给我一些建议,我将不胜感激。
我正在尝试建立一个在市场上买卖股票的模型,该模型将只有2 个可能的操作,即BUY和SELL。此外,我正在尝试使用2 个相互连接的 GRU模型来实现Actor-Critic模型,并且只为连接的 Critic 模型使用一些简单的线性层,因为我想看看与我的普通模型相比有多好。案子。
现在我的问题出现在代理的优化功能上
当我尝试初始化我的dist
变量时,它将是形状[3(hidden layer), 300(windows_size), 2(nr of actions)]而我action
的形状是[350 (batch_size)]
现在,当我尝试运行dist.log_prob(action)
时,我收到一条错误消息:
张量 a (350) 的大小必须与非单维 1 处的张量 b(300) 的大小相匹配
这是因为我的 dist 与 action 的形状不同,我的问题来了,我怎样才能让它们匹配?你们中的任何人都可以帮助我吗?我尝试使用多个线性层来匹配它们的大小,但我无法让它们数学化。
reinforcement-learning - openai 旋转中的 RL PPO 动作空间裁剪
我目前正在使用由 openai 制作的“spinningup”。在 spinup 中,实现了 PPO 和其他 RL 算法。但是,只有 DDPG、SAC 和 TD3 具有名为“action_limit”的变量。
我现在正在使用 PPO,我还需要剪辑(给出下限和上限)动作,因为我的机器人只在 [0, 200.0] 范围内工作。是因为 PPO 算法不需要与 DDPG、SAC、TD3 不同的 action_limit 吗?或者他们没有在 PPO 上放置 action_limit 是 spinup 的错误吗?
还是有其他聪明的方法可以在这里做出一些限制?
openai-gym - 是否可以保存用于安全健身房模拟的视频?
我正在尝试使用健身房可用的 wrappers.Monitor 录制代理在安全健身房环境中的视频,但我只能保存 json 文件。
我在网上找不到任何关于安全健身房的信息。任何人都知道任何其他解决方案?
reinforcement-learning - 如何更改 SpinningUp 中的动作标准偏差?
我刚刚开始使用,RL
并使用. 基本命令是:PPO
SpinningUp
训练后(运行良好),我测试了我的策略,并且 Actor 导致~0.6
选择时的标准偏差和动作值(它是一个连续的动作空间),使其过于嘈杂。所以,我有两个问题:
Std Deviation
训练策略后有没有办法改变这种情况?- 如果我在训练后无法更改策略,我可以在训练前更改吗?可能是
ac_kwargs
我可能包括的其中之一,但我不知道是哪一个。
更新
刚刚发现调用时的“确定性”选项load_policy_and_env
仅在SAC算法中可用,如test_policy.py的第79行所示。
训练策略时 -0.5 的 log_std 被硬编码在 ppo core.py - 第 80 行,导致我之前告诉过的标准差为 0.6。
pytorch - 训练 OpenAI 点唱机上采样器时,损失值会在一段时间后变得疯狂
在使用 OpenAI Jukebox 训练上采样器时,在第一个 epoch 结束时(大约 2 天后)有更多的“反向溢出”消息,最终损失值跃升 20。可能是什么问题?使用相同数据的 VQVAE 训练没有任何问题。