要从 stableBaselines3 学习算法加载结果,x, y = ts2xy(load_results(output_dir))
显然使用了类似的东西。load_results
生成一个包含 4 列的数据框:index
,这将是所讨论的模拟的索引,r
,这将是该模拟期间的总奖励,l
(这是?),以及t
,这将是自学习开始以来的时间(?)。
代表什么l
?
除了每次模拟的奖励(步数,其他自定义指标......)之外,是否可以保存更多数据?
要从 stableBaselines3 学习算法加载结果,x, y = ts2xy(load_results(output_dir))
显然使用了类似的东西。load_results
生成一个包含 4 列的数据框:index
,这将是所讨论的模拟的索引,r
,这将是该模拟期间的总奖励,l
(这是?),以及t
,这将是自学习开始以来的时间(?)。
代表什么l
?
除了每次模拟的奖励(步数,其他自定义指标......)之外,是否可以保存更多数据?