我读过一些关于在强化学习中使用其他分布来建模随机策略的文章。通常我们使用高斯分布,但有些使用 Beta 分布:https ://en.wikipedia.org/wiki/Beta_distribution
Tensorflow 内部已经有一个 Beta 分发类,允许人们将其用作张量。但是对于一些策略梯度方法,他们使用 Kullback Leiber Divergence 对优化过程使用约束。
在公式中,有已在 Tensorflow 中实现的 digamma 函数。但是我在 Tensorflow 中找不到 beta 函数(也找不到 gamma 函数,因为它们是链接的)。仅记录 gamma 或不完整的 gamma。而且我不能使用 scipy.special.beta 函数,因为它不能操纵张量(因为我的 alpha 和 beta 参数是由神经网络产生的)
我在这个领域不够专业,也许我的问题很愚蠢,但我真的很想在那里解释一下。
非常感谢