我一直在使用 Matlab 来计算使用最小二乘法和岭的模型的系数。我很确定我所有的编码都是正确的。
但是对于一个数据集(波士顿住房),岭系数大于最小二乘系数。这真的可能吗?这是什么意思?还是我犯了编码错误?......
我一直在使用 Matlab 来计算使用最小二乘法和岭的模型的系数。我很确定我所有的编码都是正确的。
但是对于一个数据集(波士顿住房),岭系数大于最小二乘系数。这真的可能吗?这是什么意思?还是我犯了编码错误?......
看来这根本不是问题……
1)在典型的最小二乘问题中,您必须选择最小化的 beta 向量
||yX*beta||^2
2) 另一个相关问题(称为 Lasso 问题)是找到最小化的 beta 向量
||yX*beta||^2 + lambda*||beta||
3)最后,在岭回归中,您的问题是找到最小化的 beta 向量
||yX*beta||^2 + lambda*||beta||^2
请注意,在上面的问题 (2) 中,很明显您正在特别惩罚 β_i 的大小。
另一方面,在上面的问题 (3) 中,您正在惩罚 betas_i 大小的差异。我的意思是,如果你有向量 beta、小 beta_i 和大 beta_i ,你的成本仍然会很大。想象一下问题 (1) 中的向量 beta=[0.1;0.0001]。虽然“按比例”减少问题(2)中的两个 beta_is 似乎是一个很好的解决方案,但问题(3)中不会发生同样的情况,最好是稍微增加 beta_2=0.0001 的大小以减少更多beta_1=0.1 的大小。
因此,如果您的问题 (3) 的 matlab 解决方案呈现 beta_i 的大小更相似,那么您似乎做得很好。
我希望我能帮上忙,但我以前从未运行过这种回归,而且我这里也没有 matlab。