5

我目前正在尝试实现一种机器学习算法,该算法涉及 MATLAB 中的逻辑损失函数。不幸的是,由于数值溢出,我遇到了一些麻烦。

一般来说,对于给定的输入s,逻辑函数的值是:

 log(1 + exp(s))

逻辑损失函数的斜率为:

 exp(s)./(1 + exp(s)) = 1./(1 + exp(-s))

在我的算法中, 的值s = X*beta。这X是一个矩阵,其中包含每个数据点的N数据点和P特征(即size(X)=[N,P]),并且betaP每个特征的系数向量,使得size(beta)=[P 1]

我对计算给定值的 Logistic 函数的平均值和梯度特别感兴趣beta

Logistic 函数 wrt 的平均值beta为:

 L = 1/N * sum(log(1+exp(X*beta)),1)

Logistic 函数 wrt 的斜率平均值b为:

 dL = 1/N * sum((exp(X*beta)./(1+exp(X*beta))' X, 1)'

注意size(dL) = [P 1].

我的问题是这些表达式不断产生数字溢出。问题实际上来自这样一个事实,即exp(s)=Inf何时s>1000exp(s)=0s<-1000.

我正在寻找一种s可以在浮点运算中取任何值的解决方案。理想情况下,我也非常感谢一个允许我以矢量化/有效方式评估值和梯度的解决方案。

4

2 回答 2

9

以下近似值如何:

– 对于计算L,如果s很大,那么exp(s)将远大于 1:

1 + exp(s) ≅ exp(s)

因此

log(1 + exp(s)) ≅ log(exp(s)) = s.

如果s很小,则使用exp()的泰勒级数

exp(s) ≅ 1 + s

并使用泰勒级数 log()

log(1 + exp(s)) ≅ log(2 + s) ≅ log(2) + s / 2.

– 用于计算dL,用于大型s

exp(s) ./ (1 + exp(s)) ≅ 1

对于小s

exp(s) ./ (1 + exp(s)) ≅ 1/2 + s / 4.

– 计算代码L可能如下所示:

s = X*beta;
l = log(1+exp(s));
ind = isinf(l);
l(ind) = s(ind);
ind = (l == 0);
l(ind) = log(2) + s(ind) / 2;
L = 1/N * sum(l,1)
于 2013-11-20T02:04:33.113 回答
5

我找到了一篇关于这个问题的好文章

剪掉很多词,我们可以将论证简化为陈述原始表达

log(1 + exp(s)) 

可以改写为

log(exp(s)*(exp(-s) + 1))
= log(exp(s)) + log(exp(-s) + 1)
= s + log(exp(-s) + 1)

这会阻止上溢的发生——它不会阻止下溢,但是到发生的时候,你就有了答案(即s)。你不能只用它来代替原来的,因为它仍然会给你带来问题。但是,我们现在有了一个可以编写的函数的基础,该函数将是准确的并且不会产生上溢/下溢:

function LL = logistic(s)
if s<0
  LL = log(1 + exp(s));
else
  LL = s + logistic(-s);

我认为这保持了相当好的准确性。

现在编辑您的问题的实质 - 使其矢量化,并允许计算斜率。让我们一次拿这些:

function LL = logisticVec(s)
  LL = zeros(size(s));
  LL(s<0) = log(1 + exp(s(s<0)));
  LL(s>=0) = s(s>=0) + log(1 + exp(-s(s>=0)));

要获得您想要的平均值:

L = logisticVec(X*beta) / N;

斜坡有点棘手;请注意,我相信您的表达式中可能有错字(缺少乘号)。

dL/dbeta = sum(X * exp(X*beta) ./ (1 + exp(X*beta))) / N;

如果我们将顶部和底部除以exp(X*beta)我们得到

dL = sum(X ./ (exp(-X*beta) + 1)) / N;

再一次,溢出消失了,我们留下了下溢——但由于下溢的值已经1添加到它上面,这产生的错误是微不足道的。

于 2013-11-20T02:27:15.837 回答