“keras-rl”的相关标签问题_Stack Overflow中文网

0 投票

2 回答

8170 浏览

python - 带有 Tensorflow 后端的 Keras - 在 CPU 上运行预测但适合 GPU

我正在使用 keras-rl 使用 D-DQN 算法训练我的网络。我正在 GPU 上运行我的训练，该model.fit_generator()函数允许在 GPU 进行反向传播时将数据发送到 GPU。与 GPU 处理数据的速度相比，我怀疑数据的生成速度太慢了。

在生成数据时，按照 D-DQN 算法的说明，我必须首先用我的模型预测 Q 值，然后将这些值用于反向传播。如果使用 GPU 来运行这些预测，则意味着它们正在破坏我的数据流（我希望反向传播尽可能频繁地运行）。

有没有办法可以指定在哪个设备上运行特定操作？在某种程度上，我可以在 CPU 上运行预测，在 GPU 上运行反向传播。

2018-07-24T20:47:17.070

0 投票

1 回答

1292 浏览

keras - Keras-RL 集在拟合模型后返回相同的值

所以我使用 OpenAI Gym 创建了一个自定义环境。我正在密切关注 CartPole 示例的 DQNAgent 的 keras-rl 示例，该示例导致以下实现：

所以在 dqn.test 函数调用之前，一切看起来都和我预期的一样。dqn.fit 的示例输出如下：

... 1912/2500：剧集：8，持续时间：1.713s，剧集步数：239，每秒步数：139，剧集奖励：-78.774，平均奖励：-0.330 [-27928.576, 18038.443]，平均动作：0.657 [ 0.000, 2.000]，平均观察值：8825.907 [5947.400, 17211.920]，损失：7792970.500000，mean_absolute_error：653.732361，mean_q：1.000000

2151/2500：剧集：9，持续时间：1.790s，剧集步数：239，每秒步数：134，剧集奖励：-23335.055，平均奖励：-97.636 [-17918.534, 17819.400]，平均动作：0.636 [0.000, 2.000 ]，平均观察值：8825.907 [5947.400, 17211.920]，损失：8051206.500000，mean_absolute_error：676.335266，mean_q：1.000000

2390/2500：剧集：10，持续时间：1.775s，剧集步数：239，每秒步数：135，剧集奖励：16940.150，平均奖励：70.879 [-25552.948, 17819.400]，平均动作：0.611 [0.000, 2.000]，平均观察：8825.907 [5947.400, 17211.920]，损失：8520963.000000，mean_absolute_error：690.176819，mean_q：1.000000

由于各种奖励不同，在我看来，配件按预期工作。但是当 dqn.test 方法运行时，它会不断为每一集生成相同的输出。就我使用的数据而言，负奖励是不好的，而正奖励是好的。

这是正在运行的测试方法的结果：

测试 10 集

第1集：奖励：-62996.100，步数：239
第2集：奖励：-62996.100，步数：239
第3集：奖励：-62996.100，步数：239
第4集：奖励：-62996.100，步数：239
第5集：奖励：-62996.100，步数：239
第6集：奖励：-62996.100，步数：239
第7集：奖励：-62996.100，步数：239
第8集：奖励：-62996.100，步数：239
第9集：奖励：-62996.100，步数：239
第10集：奖励：-62996.100，步数：239

这让我想到了两个问题：

1) 为什么每集的剧集奖励都一样？

2）为什么模型会推荐一组导致可怕奖励的行动？

keras reinforcement-learning openai-gym keras-rl

2018-07-25T16:18:08.073

0 投票

1 回答

1246 浏览

python - Tensorflow、OpenAI Gym、Keras-rl 在基本强化学习示例中的性能问题

我正在做强化学习，但我遇到了性能问题。

情况，没有自定义代码：

我在 Google Cloud 上加载了一个 Google 深度学习 VM ( https://console.cloud.google.com/marketplace/details/click-to-deploy-images/deeplearning )。这附带了安装了 NVidia K80 显卡的所有先决条件（CUDA、cuDNN、驱动程序）。
安装keras-rl , OpenAI 健身房
现在，当我在第 46 行使用 Visualize=False 运行（标准）示例dqn_cartpole.py时，它使用了我大约 20% 的 GPU，导致每秒大约 100 步，这比在我的 Razer Blade 上使用 CPU 慢大约 3 倍15 (i7-8750H)。
我检查了我能想到的所有瓶颈，CPU使用率、内存和HD I/O都正常。

请帮忙！

提前致谢

python tensorflow reinforcement-learning openai-gym keras-rl

2018-08-07T11:40:35.440

0 投票

1 回答

3412 浏览