1

我想在不同的代码中使用 rllib 训练的策略模型,我需要跟踪为特定输入状态生成的操作。使用标准 TensorFlow 或 PyTorch(首选)网络模型可以提供这种灵活性,但我找不到关于如何从经过训练的 rllib 代理生成可用 dat 或 H5 文件的明确文档,然后我可以将其加载到 Torch 或 tf/Keras模型。

4

1 回答 1

1

从检查点获取权重的最简单方法是使用 rllib 再次加载它,然后使用 Tensorflow/Pytorch 命令保存它。如果你有一个 keras TF 模型,你可以简单地调用:

model.save('my_model.h5') # creates a HDF5 file
于 2021-05-28T10:08:17.677 回答