问题标签 [keras-rl]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
github - 将 keras-rl 包导入 conda 环境
我已经使用他们的说明在我的计算机上安装了keras-rl包:
所以我的 conda 环境看到了这个包,但是当我试图将它作为我的代码的一部分导入到 Spyder 中时import keras-rl
,我收到以下错误:
带有指向 keras-rl 破折号的指针。
问题:如何在 Spyder 中导入 keras-rl(或任何其他名称中带有破折号的包)?
keras - 如何在 keras-rl / OpenAI GYM 中实现自定义环境?
我是强化学习的新手,一直在寻找一个框架/模块来轻松驾驭这个险恶的地形。在我的搜索中,我遇到了两个模块 keras-rl 和 OpenAI GYM。
我可以让他们两个都在他们在 WIKI 上共享的示例上工作,但是它们带有预定义的环境,并且很少或根本没有关于如何设置我自己的自定义环境的信息。
如果有人能给我指点教程或只是向我解释如何设置非游戏环境,我将非常感激?
reinforcement-learning - keras-rl 的 EpisodeParameterMemory 有什么作用?
我找到了keras-rl/examples/cem_cartpole.py示例,我想了解,但我没有找到文档。
线是做什么的
做?什么是limit
,什么是window_length
?增加一个/两个参数有什么影响?
python - 如何使用 keras-rl 进行多智能体训练
我正在尝试在多代理环境中使用 keras-rl。所以我发现了这个keras-rl 的 github 问题,其中包含一个为所有代理使用共享环境的想法。不幸的是,我还没有设法让它工作。似乎在这种情况下使用健身房环境通常是可能的,我只是没有设法让它与 keras-rl 一起使用。有谁知道怎么做?
python - 为什么我的 DQN 代理无法在非确定性环境中找到最优策略?
编辑:以下似乎也适用于FrozenLake-v0
. 请注意,我对简单的 Q 学习不感兴趣,因为我希望看到适用于连续观察空间的解决方案。
我最近创建了banana_gym
OpenAI 环境。场景如下:
你有一根香蕉。它必须在 2 天内售出,因为第 3 天就坏了。您可以选择价格 x,但香蕉仅以
奖励为x - 1。如果第三天没有卖掉香蕉,则奖励为-1。(直觉:你为香蕉支付了 1 欧元)。因此,环境是非确定性的(随机的)。
操作:您可以将价格设置为 {0.00, 0.10, 0.20, ..., 2.00}
观察:剩余时间(来源)
我计算了最优策略:
这也符合我的直觉:首先尝试以更高的价格出售香蕉,因为您知道如果不卖,您还有另一次尝试。然后将价格降低到 0.00 以上。
最优策略计算
我很确定这是正确的,但为了完整起见
DQN + 策略提取
以下 DQN 代理(使用Keras-RL实现)适用于CartPole-v0
环境,但学习策略
对于香蕉环境。它朝着正确的方向前进,但它始终如一地学习该策略而不是最佳策略:
为什么 DQN 代理不学习最优策略?
执行:
代码dqn.py
:
keras - Keras - 权重初始化为 nans
我正在尝试为基于策略的 RL 创建一个神经网络。我编写了类来构建网络并生成如下操作:
我想在基于策略的 RL 中使用它。问题是即使我将权重初始化为Random normal
(或其他初始化程序),权重输出也有很多 nan。此外,action_prob
也以nan的身份出现。下面给出了权重的代表性输出。谁能告诉我如何解决这个问题?
tensorflow - ImportError:无法导入名称 pywrap_dlopen_global_flags
尝试在硬件上使用 tensorflow(版本-截至发布日期的最新版本)时出现以下错误-带有操作系统的 MacBookPro CPU-virtualenv 中的双启动 Ubuntu 16.04 LTS — 带有 Keras 和 keras-rl 和 python 的无站点包2.7.
我用了
在另一个环境中工作时导入 keras-rl 模块
这个 ImportError 是什么意思?我检查了文件 pwrap_tensorflow.py 中的代码,但不理解异常上方的注释。
我也遇到了一个 protobuf 问题。venv中的protobuf版本是3.5.1
python - 使用 Keras 后端函数时出现 InvalidArgumentError
我正在使用 Keras 后端函数来计算强化学习设置中的梯度,以下是代码片段。对于此代码,我也收到以下错误。可能是什么原因?
错误是
keras - Keras 强化学习:如何将奖励传递给模型
这是车杆问题的代码。我想编辑其中的一些来制作我自己的。但是,我不知道哪个代码给了代理一个状态和奖励。
奖励和状态如何给代理?以及模型如何?