reinforcement-learning - Ray RLllib：供外部使用的出口政策

Question

我有一个基于 PPO 策略的模型，我使用 RLLib 在一些标准健身房环境中使用 Ray Tune API 进行训练（没有花哨的预处理）。我保存了模型检查点，我可以从中加载和恢复以进行进一步培训。

现在，我想将我的生产模型导出到理想情况下不依赖于 Ray 或 RLLib 的系统。有没有一种简单的方法可以做到这一点？

我知道类中有一个接口export_model，rllib.policy.tf_policy但似乎不是特别好用。例如，在调用export_model('savedir')我的训练脚本后，并在另一个上下文中加载 viamodel = tf.saved_model.load('savedir')后，生成的model对象很难将正确的输入输入以进行评估（类似于model.signatures['serving_default'](gym_observation)不起作用）。理想情况下，我正在寻找一种方法，可以轻松地对观察对象进行开箱即用的模型加载和评估

score 0 · Accepted Answer

从检查点恢复后agent.restore(**checkpoint_path**)，您可以使用agent.export_policy_model(**output_dir**)将模型导出为.pb文件和variables文件夹。

reinforcement-learning - Ray RLllib：供外部使用的出口政策

1 回答 1

Related

Reference