algorithm - 使用对数归一化向量以避免溢出

Question

看到了上面的内容并看到了 softmax 归一化，我试图在避免溢出的同时对向量进行归一化 -

那就是如果我有一个数组 x[1], x[2] x[3], x[4], ... , x[n]

对我来说，归一化形式的元素平方和为 1.0，是通过将每个元素除以 sqrt(x[1]*x[1]+x[2]*x[2]+...+x[n]*x[n])

现在即使平方根小到足以放入浮点变量，平方和也会溢出，所以我想可以做类似的事情 s=(2*log(fabs(x[1]))+2*log(fabs(x[2]))+...+2*log(fabs(x[n])))/2

并将元素计算为

exp(log(fabs(x[1]))-s), ..., exp(log(fabs(x[n]))-s

但

以上是不正确的，因为 log(A+B) 不是 log(A)+log(B) - 现在有没有办法进行向量归一化来更好地避免溢出？

score 4 · Accepted Answer

代替

norm  = sqrt(x[1] * x[1] + ... + x[n] * x[n])

您可能希望在平方之前将向量的元素除以最大可能值

max_x = max(x[1], ..., x[n])
y[1] = x[1] / max_x / n
...
y[n] = x[n] / max_x / n
norm = n * sqrt(y[1] * y[1] + ... + y[n] * y[n]) * max_x

向量的范数y应该等于或小于零。的值n * max_x仍然可能溢出，因此您也需要小心，操作是以非溢出顺序执行的。

score 3 · Accepted Answer

您似乎在假设：

log(x^2 + y^2)

是相同的：

log(x^2) + log(y^2)

但是，这是不正确的，因为您不能像这样简化总和的对数。

score 3 · Accepted Answer

KennyTM 是正确的——你对对数的看法是错误的。

您不能使用 L2 范数，因为它要求您计算向量的大小，这正是您遇到溢出问题的原因。

也许 L-infinity 范数（首先将向量中的每个分量除以最大分量的绝对值）会更好。一定要坚持那个最大绝对值，这样你才能得到正确的幅度。

我完全理解您需要 L2 规范，但如果溢出确实是一个问题，您需要采取中间步骤来获得它：

3 回答 3