问题标签 [openai-gym]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
python - 在 openai 观察上训练 TensorFlow 神经网络
我正在尝试在 Tensorflow 中创建一个 NN 来训练经验回放,但我遇到了一个无法修复的错误。这是我的代码:
这是错误:
如果您告诉我我的代码有什么问题,我将不胜感激。谢谢。
openai-gym - 在 OPENAI UNIVERSE 中创建浏览器环境
如何在 OPEN AI Universe 中创建新环境以使用我的网站执行操作?
我试过黄昏游戏。它运作良好。
python - OpenAI 健身房:何时需要重置?
虽然我可以设法让示例和我自己的代码运行,但我对 OpenAI gym API 背后的真实语义/期望更加好奇,特别是 Env.reset()
预期/需要何时重置?在每一集的结尾?还是只有在创建环境之后?
我宁愿在每集之前都认为这是有道理的,但我无法明确地阅读!
python - 是否可以在不同(自定义)OpenAI 健身房环境中编辑 OpenAI Universe 起始代理?
启动代理提供了一个 MD,该 MD 提供了使用 openAI 健身房环境的 atari pong 和闪存驱动器的示例。是否可以编辑启动代理的 envs.py 文件(和/或可能的其他文件),以便它也可以用于其他(例如自定义)健身房环境,或者整个代理仅适用于这些特定游戏? env 是否应该满足任何要求?
python - Ubuntu 16.04 中的 Python OpenAI Atari 模块 - “没有名为 atari_py 的模块。”
(我是 Ubuntu 的新手,请原谅我的无知。)我正在尝试使用 OpenAI 的 Atari 模块在 Python 中运行 SpaceInvaders,但是我一直收到错误消息
文件“/usr/local/lib/python2.7/dist-packages/gym/envs/atari/atari_env.py”,第 11 行,引发 error.DependencyNotInstalled("{}。(提示:您可以通过以下方式安装 Atari 依赖项运行 'pip install gym[atari]'.)".format(e))gym.error.DependencyNotInstalled: 没有名为 atari_py 的模块。(提示:您可以通过运行“pip install gym[atari]”来安装 Atari 依赖项。)
错误中建议的命令正是我用来安装gym的命令。我在另一个论坛上读到这意味着并非所有依赖项都已加载,因此我非常小心地下载了此处列出的这些依赖项。以下是它们已正确安装的一些证据:
还有什么我应该注意的,或者我可以通过其他方式解决这个问题吗?
python-3.x - 深度神经网络在训练时不更新权重
我目前正在进入 tensorflow 并且刚刚开始掌握图形的概念。现在我尝试使用梯度下降(亚当优化器)来实现一个 NN 来解决购物车环境。我首先随机初始化我的权重,然后在训练期间采取随机行动(考虑现有权重)。在测试时,我总是以最大概率采取行动。然而,我总是得到一个徘徊在 10 左右的分数,方差在 0.8 左右。总是。它根本没有以显着的方式发生变化,使它看起来在每一步都采取纯粹的随机动作,根本没有学习任何东西。正如我所说,权重似乎永远不会正确更新。我需要在哪里以及如何做到这一点?
这是我的代码:
python-3.x - 使用 conda 4.3.21 为 python 3.6 安装 pybox2d
我想玩 OpenAI 健身房的月球着陆器环境。
为了运行这段代码,我需要安装 Box2d,这就是我出现问题的地方。我正在使用带有 conda 4.3.21 和 python 3.6 的 ubuntu 16.04。当我尝试运行环境时收到错误:ModuleNotFoundError: No module named '_Box2D'
所以我尝试直接安装 pybox2d: https ://github.com/pybox2d/pybox2d/blob/master/INSTALL.md ,它产生了相同的错误消息。
然后我尝试按照https://github.com/cbfinn/gps/issues/34中概述的方式从 GitHub 安装
如果我运行它(在具有 python 3 的根环境或具有 python 3 的另一个新创建的环境中)我得到结果:
大量处理日志处理 Box2D-2.3.2-py2.7-linux-x86_64.egg 创建 /usr/local/lib/python2.7/dist-packages/Box2D-2.3.2-py2.7-linux-x86_64 .egg 将 Box2D-2.3.2-py2.7-linux-x86_64.egg 提取到 /usr/local/lib/python2.7/dist-packages 将 Box2D 2.3.2 添加到 easy-install.pth 文件
安装 /usr/local/lib/python2.7/dist-packages/Box2D-2.3.2-py2.7-linux-x86_64.egg Box2D的处理依赖==2.3.2 Box2D的处理完成==2.3.2
所以 pybox2d 被安装到 ubuntu 的标准 python 2 的库中,尽管它处于 python 3 conda 环境中。
所以,我正在寻找使用 conda 4.3.21 为 python 3 安装 pybox2d 包的方法
machine-learning - OpenAI 基线:为什么同时使用 `tf.stop_gradient` 和指定 `var_list`?
在DQN上的 OpenAI 基线代码中,tf.stop_gradient
在构建操作图期间用于目标网络的 q 值,以防止目标 q 值对最小化损失的贡献。(第 213 行)
但是,在调用 时minimize
,var_list
仅将 指定为tf.Variable
在被优化的 q 网络下的具有范围的变量,不包括在目标 q 网络下的具有范围的变量。(第 223 行)
我不确定他们为什么两者都做。这两种方法似乎达到了相同的结果。
robotics - bulletphysics/bullet3(pybullet 库)中的 kuka_grasp_block_playback.py 未在我的系统上运行。
我从https://github.com/bulletphysics/bullet3.git下载了 bullet3 github 存储库(Bullet Physics SDK),其中包含用于运行强化学习算法的 OpenAI Gym 示例的 python 绑定。我尝试运行以下目录中的 kuka_grasp_block_playback.py 示例:bullet3-master/examples/pybullet/examples/
我的系统不支持 pybullet.GUI,所以我继续使用 pybullet.DIRECT。但是,在使用运行它时python kuka_grasp_block_playback.py
,它给了我以下错误:
如何处理?