我有一个基于 PPO 策略的模型,我使用 RLLib 在一些标准健身房环境中使用 Ray Tune API 进行训练(没有花哨的预处理)。我保存了模型检查点,我可以从中加载和恢复以进行进一步培训。
现在,我想将我的生产模型导出到理想情况下不依赖于 Ray 或 RLLib 的系统。有没有一种简单的方法可以做到这一点?
我知道类中有一个接口export_model
,rllib.policy.tf_policy
但似乎不是特别好用。例如,在调用export_model('savedir')
我的训练脚本后,并在另一个上下文中加载 viamodel = tf.saved_model.load('savedir')
后,生成的model
对象很难将正确的输入输入以进行评估(类似于model.signatures['serving_default'](gym_observation)
不起作用)。理想情况下,我正在寻找一种方法,可以轻松地对观察对象进行开箱即用的模型加载和评估