0

对于基于梯度的算法,重要的是监控熵的值和网络的梯度范数。这有助于快速找到一组更好的超参数。在当前的 ray 实现中,我找不到任何 API 来获取这些值。有谁知道如何在Trainer函数报告中获得策略的熵,比如PPOTrainer,SACTrainer等?

4

0 回答 0