3

我有一个矩阵,其中每列的平均值为 0,标准值为 1

In [67]: x_val.std(axis=0).min()
Out[70]: 0.99999999999999922

In [71]: x_val.std(axis=0).max()
Out[71]: 1.0000000000000007

In [72]: x_val.mean(axis=0).max()
Out[72]: 1.1990408665951691e-16

In [73]: x_val.mean(axis=0).min()
Out[73]: -9.7144514654701197e-17

如果我使用 normalize 选项,非 0 系数的数量会发生变化

In [74]: l = Lasso(alpha=alpha_perc70).fit(x_val, y_val)

In [81]: sum(l.coef_!=0)
Out[83]: 47

In [84]: l2 = Lasso(alpha=alpha_perc70, normalize=True).fit(x_val, y_val)

In [93]: sum(l2.coef_!=0)
Out[95]: 3

在我看来,规范化只是将每列的方差设置为 1。结果变化如此之大,这很奇怪。我的数据已经方差= 1。

那么 normalize=T 实际上是做什么的呢?

4

2 回答 2

8

这是由于(或潜在的 [1])在缩放概念中的不一致sklearn.linear_model.base.center_data:如果normalize=True,那么它将除以设计矩阵的每一列的范数,而不是除以标准偏差。对于它的价值,该关键字normalize=True将从 sklearn 版本 0.17 中弃用。

解决方法:不要使用standardize=True。相反,构建 asklearn.pipeline.Pipeline并将 asklearn.preprocessing.StandardScaler添加到您的Lasso对象。这样,您甚至不需要执行初始缩放。

请注意,Lasso 的 sklearn 实现中的数据丢失项按比例缩放n_samples。因此,产生零解的最小惩罚是alpha_max = np.abs(X.T.dot(y)).max() / n_samples(for normalize=False)。

[1] 我说潜在的不一致,因为normalize与单词norm相关联,因此至少在语言上是一致的 :)

[如果您不想要详细信息,请在此处停止阅读]

这是一些重现问题的复制和可粘贴代码

import numpy as np
rng = np.random.RandomState(42)

n_samples, n_features, n_active_vars = 20, 10, 5
X = rng.randn(n_samples, n_features)
X = ((X - X.mean(0)) / X.std(0))

beta = rng.randn(n_features)
beta[rng.permutation(n_features)[:n_active_vars]] = 0.

y = X.dot(beta)

print X.std(0)
print X.mean(0)

from sklearn.linear_model import Lasso

lasso1 = Lasso(alpha=.1)
print lasso1.fit(X, y).coef_

lasso2 = Lasso(alpha=.1, normalize=True)
print lasso2.fit(X, y).coef_

为了了解发生了什么,现在观察

lasso1.fit(X / np.sqrt(n_samples), y).coef_ / np.sqrt(n_samples)

等于

lasso2.fit(X, y).coef_

因此,缩放设计矩阵并通过np.sqrt(n_samples)将一个模型转换为另一个模型来适当地重新缩放系数。这也可以通过对惩罚起作用来实现:一个套索估计器,normalize=True其惩罚被按比例缩小,np.sqrt(n_samples)就像一个套索估计器normalize=False(在您的数据类型上,即已经标准化为std=1)。

lasso3 = Lasso(alpha=.1 / np.sqrt(n_samples), normalize=True)
print lasso3.fit(X, y).coef_  # yields the same coefficients as lasso1.fit(X, y).coef_
于 2014-06-07T20:48:22.777 回答
0

我认为上面的答案是错误的......

在 Lasso 中,如果设置 normalize=True,则在拟合 lasso 回归之前,每列都将除以其 L2 范数(即 sd*sqrt(n))。设计矩阵的量级因此减小,“预期”系数将增大。系数越大,L1 惩罚越强。所以函数必须更加注意 L1 惩罚,让更多的特征为 0。结果你会看到更多的稀疏特征(β=0)。

于 2020-12-28T20:36:29.640 回答