我想在不同的代码中使用 rllib 训练的策略模型,我需要跟踪为特定输入状态生成的操作。使用标准 TensorFlow 或 PyTorch(首选)网络模型可以提供这种灵活性,但我找不到关于如何从经过训练的 rllib 代理生成可用 dat 或 H5 文件的明确文档,然后我可以将其加载到 Torch 或 tf/Keras模型。
问问题
341 次
我想在不同的代码中使用 rllib 训练的策略模型,我需要跟踪为特定输入状态生成的操作。使用标准 TensorFlow 或 PyTorch(首选)网络模型可以提供这种灵活性,但我找不到关于如何从经过训练的 rllib 代理生成可用 dat 或 H5 文件的明确文档,然后我可以将其加载到 Torch 或 tf/Keras模型。