0

这些天我正在学习策略梯度 RL 算法。我很好奇策略梯度RL算法中如何选择动作概率分布。例如,我们可以使用正态分布对动作进行采样,但为什么我们使用正态分布而不是其他类型的分布呢?

4

0 回答 0