51

我正在使用sklearn.linear_model.LogisticRegressioninscikit learn运行逻辑回归。

C : float, optional (default=1.0) Inverse of regularization strength;
    must be a positive float. Like in support vector machines, smaller
    values specify stronger regularization.

C请问这里简单来说是什么意思?什么是正则化强度?

4

1 回答 1

95

正则化是对增加参数值的大小施加惩罚,以减少过度拟合。当您训练诸如逻辑回归模型之类的模型时,您正在选择最适合数据的参数。这意味着将给定数据的模型对因变量的预测值与因变量的实际值之间的误差最小化。

当您有很多参数(很多自变量)但没有太多数据时,问题就来了。在这种情况下,模型通常会根据您的数据中的特性调整参数值——这意味着它几乎完全适合您的数据。但是,由于这些特质不会出现在您看到的未来数据中,因此您的模型预测很差。

为了解决这个问题,以及最小化已经讨论过的错误,您添加到最小化的内容并最小化一个惩罚大参数值的函数。最常见的函数是 λΣθ j 2,它是某个常数 λ 乘以平方参数值 θ j 2的总和。λ越大,参数增加幅度的可能性越小,只是为了调整数据中的小扰动。但是,在您的情况下,您指定 C=1/λ,而不是指定 λ。

于 2014-04-04T00:36:59.267 回答