3

在变分自编码器中,目标函数有两项,一项使输入和输出 x 相同,另一项是正则化,q(z) 和 p(z) 接近 KL 散度。我不明白的是为什么我们可以假设 p(z)~Normal Gaussian 具有 0 均值和 1 方差?

为什么不说..方差小于 1?以便在隐藏层中用更窄的高斯浓缩更多信息?

谢谢

4

1 回答 1

0

如果网络足够强大,可以合成复杂的函数,那么先验的形状应该——理论上——在很大程度上是不受影响的。在您作为先验的高斯方差的特定情况下,网络可以通过缩放后验分布 Q(z|X) 的相关统计数据并适当地重新缩放下一层的采样来轻松适应不同的方差。网络。生成的网络将具有与前一个完全相同的行为(和损失)。因此,先验高斯方差的作用只是固定潜在空间的度量单位。Doersh的关于变分自动编码器的优秀教程(第 2.4.3 节)中讨论了该主题;你可能也有兴趣看看我的博客

于 2019-02-14T12:19:44.520 回答