1

基本上,对于依赖于rL2 范数的内核,在这里计算并且我们首先看到了该值。在张量流概率中,他们使用sqrt带有修正梯度的 a ,当 时替换grad(|x - x'|)为一个大但有限的数字x=x'。我的问题是它们是否相等,或者是否更好?

4

1 回答 1

0

我已经检查了 GPflow 剪辑版本的渐变x=x'。结果令人惊讶,因为它为零。我确实期望它具有很高的价值。

简单检查确认tf.sqrt(1e-40)应该返回的梯度5.e+19,我不确定剪辑版本是否具有正确的行为。

于 2019-02-04T07:30:40.010 回答