0

要从 stableBaselines3 学习算法加载结果,x, y = ts2xy(load_results(output_dir)) 显然使用了类似的东西。load_results生成一个包含 4 列的数据框:index,这将是所讨论的模拟的索引,r,这将是该模拟期间的总奖励,l(这是?),以及t,这将是自学习开始以来的时间(?)。

代表什么l

除了每次模拟的奖励(步数,其他自定义指标......)之外,是否可以保存更多数据?

4

0 回答 0