问题标签 [openai]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
neural-network - 强化学习。使用 PPO 绕过物体
我正在用神经网络驱动工业机器人,到目前为止它运行良好。我正在使用 OpenAI 基线中的 PPO 算法,到目前为止,我可以通过使用以下奖励策略轻松地从点到点驾驶:
我计算目标和位置之间的标准化距离。然后我计算距离奖励。
对于每个时间步,我给代理一个计算的惩罚。
a 和 b 是要调整的超参数。
正如我所说,如果我想从点到点开车,这真的很好。但是如果我想开车兜风怎么办?对于我的工作,我需要避免碰撞,因此代理需要绕过物体。如果物体在最近的路径上不是笔直的,它就可以正常工作。然后机器人可以适应并围绕它行驶。但是,绕着直道的物体行驶变得越来越困难,甚至不可能。
我已经阅读了一篇将 PPO 与 NES 结合起来为神经网络的参数创建一些高斯噪声的论文,但我自己无法实现。
有没有人有一些在 PPO 算法中增加更多探索的经验?或者是否有人对我如何改进我的奖励策略有一些一般性的想法?
python - 找不到模块 \atari_py\ale_interface\ale_c.dll (或其依赖项之一)
我正在尝试使用 openai gym 模块,但出现此错误:
我没有 ale_c.dll 并尝试寻找解决方案但没有任何效果。我在这里遵循了解决方案https://github.com/openai/gym/issues/1726但是在尝试导入 atari_py 时出现了同样的错误。我不明白为什么__init__
会搜索模块没有附带的东西。我查看了其他 StackOverflow 问题,但也没有产生任何结果。我能想到的唯一解决方案是获取 ale_c.dll 的副本,但我不知道如何获取它。
reinforcement-learning - DQN:在将观察空间转换为 Box 环境后访问原始观察结果?
我正在改编 Tabor 的 DQN 课程( https://github.com/philtabor/Deep-Q-Learning-Paper-To-Code )中的 Pytorch 代码,以使用 vizdoomgym 库,之前已经设法使版本工作在 TF 中。
训练我的代理后,我会将其性能可视化为 .mp4 视频。以前,我使用 SK-video 库来录制播放中的代理,因为内部的 Monitor 类不能与 VZDgym 库一起使用。这是通过简单地将每个观察结果保存到图像阵列中来实现的。
我遇到了一个问题,因为我遵循的代码调用包装器以便将观察空间转换为 Box 环境,因此图像实际上是失真的。这些包装器可以在 utils.py 文件中找到,主要方法如下所示:
我注意到预处理包装器继承了观察方法,这意味着我应该能够在预处理之前访问观察并存储它们。但是,我不熟悉这种解决方案的内存管理问题,是否可行?另一种方法是尝试将观察结果从扭曲的表示中“恢复”回原始形式,但这似乎不可行。
任何建议表示赞赏。
deep-learning - 当使用 OpenAI Gym 的跳帧包装器时,np.max 行的目的是什么?
我正在实现以下通常在 OpenAI 的 Gym 中用于跳帧的包装器。它可以在 dqn/atari_wrappers.py 中找到
我对以下行感到非常困惑:
我在代码中为我理解的部分添加了注释,以帮助任何可能提供帮助的人。
np.stack(self._obs_buffer)
将两个状态堆叠在_obs_buffer
.
np.max
返回沿轴 0 的最大值。
但我不明白我们为什么要这样做,或者它到底在做什么。
keras - 如何使用 GPT 3 进行文本分类?
我想知道是否可以在文本分类问题中使用 OpenAI GPT-3 进行迁移学习?如果是这样,我怎样才能开始使用 Tensorflow,Keras。
google-colaboratory - 如何在协作中运行 env.render()
() 中的 NoSuchDisplayException Traceback(最近一次调用最后一次)
9 帧 /usr/local/lib/python3.6/dist-packages/pyglet/canvas/xlib.py in init (self, name, x_screen)
NoSuchDisplayException:无法连接到“无”
artificial-intelligence - 谁有权访问 OpenAi API GPT-3?
大家好,我注意到 OpenAi 发布了对其新 api GPT-3 的早期访问权限,我想知道你们中是否有人获得了访问权限
nlp - 使用 GPT3 构建一个模型来回答来自数据集的问题
我正在尝试构建一个聊天机器人,给定一些文本语料库,当我们从该文本中提问时会回答问题。我听说 GPT3 是一头野兽,需要最少的培训。是否有任何链接/教程/github repo 可以帮助我开始使用它?
nlp - OpenAI API 和 GPT-3,不清楚如何访问或设置学习/开发?
我正在阅读大量 GPT-3 示例,并且遇到了许多代码示例。他们都没有提到我自己可以如何以及在哪里运行和使用代码......尤其是没有提到我不能。
所以我做了我的研究,并得出结论,我不能,但我可能错了:
- 没有办法在开发机器上运行本地“东西”,根据定义,它是一个托管服务(?)
- 截至目前(2020 年 10 月 11 日),OpenAI API 仅受邀测试(?)
我错过了什么?
(我也认识到这里没有 gpt-3 或 gpt-2 标签......并且很惊讶)