问题标签 [keras-rl]

问问题

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

71 问题

0 投票

3 回答

3684 浏览

github - 将 keras-rl 包导入 conda 环境

我已经使用他们的说明在我的计算机上安装了keras-rl包：

所以我的 conda 环境看到了这个包，但是当我试图将它作为我的代码的一部分导入到 Spyder 中时import keras-rl，我收到以下错误：

带有指向 keras-rl 破折号的指针。

问题：如何在 Spyder 中导入 keras-rl（或任何其他名称中带有破折号的包）？

github anaconda spyder conda keras-rl

2017-01-22T22:35:01.830

0 投票

1 回答

9172 浏览

keras - 如何在 keras-rl / OpenAI GYM 中实现自定义环境？

我是强化学习的新手，一直在寻找一个框架/模块来轻松驾驭这个险恶的地形。在我的搜索中，我遇到了两个模块 keras-rl 和 OpenAI GYM。

我可以让他们两个都在他们在 WIKI 上共享的示例上工作，但是它们带有预定义的环境，并且很少或根本没有关于如何设置我自己的自定义环境的信息。

如果有人能给我指点教程或只是向我解释如何设置非游戏环境，我将非常感激？

keras reinforcement-learning openai-gym keras-rl

2017-06-10T03:38:43.127

0 投票

1 回答

667 浏览

python - 在 Keras 中反转渐变

我正在尝试将此文件BoundingLayer中的函数移植到keras-rl中的 DDPG.py 代理，但我在实现时遇到了一些问题。

我修改了get_gradients(loss, params)DDPG.py 中的方法来添加这个：

但我得到一个关于形状的错误：

python tensorflow keras keras-rl

2017-07-13T23:03:56.563

0 投票

2 回答

1668 浏览

reinforcement-learning - keras-rl 的 EpisodeParameterMemory 有什么作用？

我找到了keras-rl/examples/cem_cartpole.py示例，我想了解，但我没有找到文档。

线是做什么的

做？什么是limit，什么是window_length？增加一个/两个参数有什么影响？

reinforcement-learning keras-rl

2017-11-06T15:43:39.797

0 投票

1 回答

710 浏览

python - 如何使用 keras-rl 进行多智能体训练

我正在尝试在多代理环境中使用 keras-rl。所以我发现了这个keras-rl 的 github 问题，其中包含一个为所有代理使用共享环境的想法。不幸的是，我还没有设法让它工作。似乎在这种情况下使用健身房环境通常是可能的，我只是没有设法让它与 keras-rl 一起使用。有谁知道怎么做？

python openai-gym keras-rl

2017-11-09T00:44:15.120

0 投票

1 回答

2182 浏览

python - 为什么我的 DQN 代理无法在非确定性环境中找到最优策略？

编辑：以下似乎也适用于FrozenLake-v0. 请注意，我对简单的 Q 学习不感兴趣，因为我希望看到适用于连续观察空间的解决方案。

我最近创建了banana_gymOpenAI 环境。场景如下：

你有一根香蕉。它必须在 2 天内售出，因为第 3 天就坏了。您可以选择价格 x，但香蕉仅以

奖励为x - 1。如果第三天没有卖掉香蕉，则奖励为-1。（直觉：你为香蕉支付了 1 欧元）。因此，环境是非确定性的（随机的）。

操作：您可以将价格设置为 {0.00, 0.10, 0.20, ..., 2.00}

观察：剩余时间（来源）

我计算了最优策略：

这也符合我的直觉：首先尝试以更高的价格出售香蕉，因为您知道如果不卖，您还有另一次尝试。然后将价格降低到 0.00 以上。

最优策略计算

我很确定这是正确的，但为了完整起见

DQN + 策略提取

以下 DQN 代理（使用Keras-RL实现）适用于CartPole-v0环境，但学习策略

对于香蕉环境。它朝着正确的方向前进，但它始终如一地学习该策略而不是最佳策略：

为什么 DQN 代理不学习最优策略？

执行：

代码dqn.py：

python optimization reinforcement-learning openai-gym keras-rl

2017-11-13T08:16:07.197

0 投票

1 回答

483 浏览

keras - Keras - 权重初始化为 nans

我正在尝试为基于策略的 RL 创建一个神经网络。我编写了类来构建网络并生成如下操作：

我想在基于策略的 RL 中使用它。问题是即使我将权重初始化为Random normal（或其他初始化程序），权重输出也有很多 nan。此外，action_prob也以nan的身份出现。下面给出了权重的代表性输出。谁能告诉我如何解决这个问题？

keras keras-rl

2018-01-10T23:40:37.243

0 投票

0 回答

313 浏览

tensorflow - ImportError：无法导入名称 pywrap_dlopen_global_flags

尝试在硬件上使用 tensorflow（版本-截至发布日期的最新版本）时出现以下错误-带有操作系统的 MacBookPro CPU-virtualenv 中的双启动 Ubuntu 16.04 LTS — 带有 Keras 和 keras-rl 和 python 的无站点包2.7.

我用了

在另一个环境中工作时导入 keras-rl 模块

这个 ImportError 是什么意思？我检查了文件 pwrap_tensorflow.py 中的代码，但不理解异常上方的注释。

我也遇到了一个 protobuf 问题。venv中的protobuf版本是3.5.1

tensorflow virtualenv protocol-buffers keras-rl

2018-02-16T12:00:18.373

0 投票

1 回答

95 浏览

python - 使用 Keras 后端函数时出现 InvalidArgumentError

我正在使用 Keras 后端函数来计算强化学习设置中的梯度，以下是代码片段。对于此代码，我也收到以下错误。可能是什么原因？

错误是

python keras reinforcement-learning keras-layer keras-rl

2018-04-30T17:51:47.260

0 投票

1 回答

903 浏览

keras - Keras 强化学习：如何将奖励传递给模型

这是车杆问题的代码。我想编辑其中的一些来制作我自己的。但是，我不知道哪个代码给了代理一个状态和奖励。

奖励和状态如何给代理？以及模型如何？

keras reinforcement-learning reward keras-rl

2018-06-12T05:22:24.027

1 2 3 4 5 6 7 8 9 10