问题标签 [keras-rl]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
3 回答
3684 浏览

github - 将 keras-rl 包导入 conda 环境

我已经使用他们的说明在我的计算机上安装了keras-rl包:

所以我的 conda 环境看到了这个包,但是当我试图将它作为我的代码的一部分导入到 Spyder 中时import keras-rl,我收到以下错误:

带有指向 keras-rl 破折号的指针。

问题:如何在 Spyder 中导入 keras-rl(或任何其他名称中带有破折号的包)?

0 投票
1 回答
9172 浏览

keras - 如何在 keras-rl / OpenAI GYM 中实现自定义环境?

我是强化学习的新手,一直在寻找一个框架/模块来轻松驾驭这个险恶的地形。在我的搜索中,我遇到了两个模块 keras-rl 和 OpenAI GYM。

我可以让他们两个都在他们在 WIKI 上共享的示例上工作,但是它们带有预定义的环境,并且很少或根本没有关于如何设置我自己的自定义环境的信息。

如果有人能给我指点教程或只是向我解释如何设置非游戏环境,我将非常感激?

0 投票
1 回答
667 浏览

python - 在 Keras 中反转渐变

我正在尝试将此文件BoundingLayer中的函数移植到keras-rl中的 DDPG.py 代理,但我在实现时遇到了一些问题。

我修改了get_gradients(loss, params)DDPG.py 中的方法来添加这个:

但我得到一个关于形状的错误:

0 投票
2 回答
1668 浏览

reinforcement-learning - keras-rl 的 EpisodeParameterMemory 有什么作用?

我找到了keras-rl/examples/cem_cartpole.py示例,我想了解,但我没有找到文档。

线是做什么的

做?什么是limit,什么是window_length?增加一个/两个参数有什么影响?

0 投票
1 回答
710 浏览

python - 如何使用 keras-rl 进行多智能体训练

我正在尝试在多代理环境中使用 keras-rl。所以我发现了这个keras-rl 的 github 问题,其中包含一个为所有代理使用共享环境的想法。不幸的是,我还没有设法让它工作。似乎在这种情况下使用健身房环境通常是可能的,我只是没有设法让它与 keras-rl 一起使用。有谁知道怎么做?

0 投票
1 回答
2182 浏览

python - 为什么我的 DQN 代理无法在非确定性环境中找到最优策略?

编辑:以下似乎也适用于FrozenLake-v0. 请注意,我对简单的 Q 学习不感兴趣,因为我希望看到适用于连续观察空间的解决方案。

我最近创建了banana_gymOpenAI 环境。场景如下:

你有一根香蕉。它必须在 2 天内售出,因为第 3 天就坏了。您可以选择价格 x,但香蕉仅以

在此处输入图像描述

奖励为x - 1。如果第三天没有卖掉香蕉,则奖励为-1。(直觉:你为香蕉支付了 1 欧元)。因此,环境是非确定性的(随机的)。

操作:您可以将价格设置为 {0.00, 0.10, 0.20, ..., 2.00}

观察:剩余时间(来源

我计算了最优策略:

这也符合我的直觉:首先尝试以更高的价格出售香蕉,因为您知道如果不卖,您还有另一次尝试。然后将价格降低到 0.00 以上。

最优策略计算

我很确定这是正确的,但为了完整起见

DQN + 策略提取

以下 DQN 代理(使用Keras-RL实现)适用于CartPole-v0环境,但学习策略

对于香蕉环境。它朝着正确的方向前进,但它始终如一地学习该策略而不是最佳策略

为什么 DQN 代理不学习最优策略?

执行:

代码dqn.py

0 投票
1 回答
483 浏览

keras - Keras - 权重初始化为 nans

我正在尝试为基于策略的 RL 创建一个神经网络。我编写了类来构建网络并生成如下操作:

我想在基于策略的 RL 中使用它。问题是即使我将权重初始化为Random normal(或其他初始化程序),权重输出也有很多 nan。此外,action_prob也以nan的身份出现。下面给出了权重的代表性输出。谁能告诉我如何解决这个问题?

0 投票
0 回答
313 浏览

tensorflow - ImportError:无法导入名称 pywrap_dlopen_global_flags

尝试在硬件上使用 tensorflow(版本-截至发布日期的最新版本)时出现以下错误-带有操作系统的 MacBookPro CPU-virtualenv 中的双启动 Ubuntu 16.04 LTS — 带有 Keras 和 keras-rl 和 python 的无站点包2.7.

我用了

在另一个环境中工作时导入 keras-rl 模块

这个 ImportError 是什么意思?我检查了文件 pwrap_tensorflow.py 中的代码,但不理解异常上方的注释。

我也遇到了一个 protobuf 问题。venv中的protobuf版本是3.5.1

0 投票
1 回答
95 浏览

python - 使用 Keras 后端函数时出现 InvalidArgumentError

我正在使用 Keras 后端函数来计算强化学习设置中的梯度,以下是代码片段。对于此代码,我也收到以下错误。可能是什么原因?

错误是

0 投票
1 回答
903 浏览

keras - Keras 强化学习:如何将奖励传递给模型

这是车杆问题的代码。我想编辑其中的一些来制作我自己的。但是,我不知道哪个代码给了代理一个状态和奖励。

奖励和状态如何给代理?以及模型如何?