问题标签 [lasso-regression]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
r - 套索,glmnet,数据预处理
我试图使用 glmnet 包在具有二进制结果(logit)的模型上拟合套索(L1 惩罚)。我的预测变量都是二进制的(它们是 1/0 未排序的,~4000),除了一个连续变量。我需要将预测变量转换为稀疏矩阵,因为它需要永远和一天。我的问题是:似乎人们正在使用 sparse.model.matrix 而不仅仅是将他们的矩阵转换为稀疏矩阵。这是为什么?我需要在这里做吗?两种方法的结果略有不同。
另外,我的因子是否需要编码为因子(当涉及到结果和预测变量时)或者使用稀疏矩阵并在 glmnet 模型中指定结果是二项式就足够了?
这是我到目前为止所做的
所以总结我的两个问题是:1-即使我的因子只是二进制而不是有序的,我是否需要使用 sparse.model.matrix?[如果是的话,它实际上与仅将矩阵转换为稀疏矩阵有什么不同] 2-我需要将二进制变量编码为因子吗?我问的原因是我的数据集很大。无需编码即可节省大量时间。
matlab - 恒定曲线拟合中 Lasso 的零输出
我想用非线性函数的总和来近似一个常数函数。我可以用普通的最小二乘来做到这一点,但是用套索会出错,可能是因为要逼近的函数是常数。我在下面的 Matlab 中给出了一个玩具示例:
我注意到套索首先从输入和输出中减去平均值,所以这将给出零输出,因此所有零权重都是由套索产生的。有什么办法可以规避这种情况吗?或者另一种方法来获得权重的稀疏结果?
python - Lasso sklearn 中的选项 normalize = True 有什么作用?
我有一个矩阵,其中每列的平均值为 0,标准值为 1
如果我使用 normalize 选项,非 0 系数的数量会发生变化
在我看来,规范化只是将每列的方差设置为 1。结果变化如此之大,这很奇怪。我的数据已经方差= 1。
那么 normalize=T 实际上是做什么的呢?
lambda - stata中的LASSO reg(plogit函数)
我是 LASSO 方法的新手(我知道它主要是在 R 中完成的,但我不知道 R)。所以在 stata 中有一个用户编写的代码 plogit 可以做套索(byTony Brady 和 Gareth Ambler)。有人用过吗?
如果是这样,我的问题是 lambda (#) 的最佳值是多少?我有 20 个解释变量。我将 lambda 值设为 14,得到 11 的系数。= 0.000,而 lambda = 6,我得到 4 个变量 = 0.00
那么最佳值是多少呢?在帮助 plogit 中,它说“更高的 lambda 值会带来更多的惩罚)
非常感谢!
r - How does glmnet compute the maximal lambda value?
The glmnet
package uses a range of LASSO
tuning parameters lambda
scaled from the maximal lambda_max
under which no predictors are selected. I want to find out how glmnet
computes this lambda_max
value. For example, in a trivial dataset:
The package vignette (http://www.jstatsoft.org/v33/i01/paper) describes in section 2.5 that it computes this value as follows:
Which clearly is close but not the same value. So, what causes this difference? And in a related question, how could I compute lambda_max
for a logistic regression?
r - 如何从 R 中的套索回归中获得系数?
有人能告诉我如何lars
在 R 的包中获得套索回归的系数吗?
例如,如果代码如下:
谢谢你。
lasso-regression - lasso选择的系数和置信区间
我使用套索方法进行了特征选择,并使用了协方差测试covTest::covTest
来检索 p.values。我借用一个例子covTest
:
covTest 的结果显示了热门特征的 p 值。我的问题是如何检索这些特征的系数,例如预测器 1 及其Std.err
和的系数95%CI
。我会将这些估计值与glm
.
r - 使用 glmnet 构建 Lasso 后获取模型系数的方法
如下构建Lasso
模型后,我想查看模型系数。
该 Glmnet
网站http://web.stanford.edu/~hastie/glmnet/glmnet_alpha.html
显示以下命令。我不明白s
这里的意思。去掉s的时候,coef(fit)
会返回一个矩阵,不是很懂。
r - BIC 在套索回归中选择 lambda
我知道我们可以使用 GCV 值在套索回归中选择 lambda。我们也可以使用 BIC 值在 lasso 回归中选择 lambda 吗?我如何在 R 中使用 glmnet() 计算 BIC 值?我读过很多讲义,他们都在谈论使用 GCV 值来选择合适的 lambda。
r - 我们如何为 glmnet 指定自定义 lambda 序列
我是 中的glmnet
包的新手R
,想lambda
根据已发表的研究论文中的建议指定一个glmnet.cv
函数。文档建议我们可以提供一个递减序列lambdas
作为参数。但是,在文档中没有关于如何执行此操作的示例。
如果有人能建议如何去做,将不胜感激。我是否将 100 个奇数值(的默认值nlambda
)的向量传递给函数?这个向量的最小值和最大值应该有什么限制(如果有的话)?另外,在指定向量时,是否要记住关于 等的事情nvars
?nobs
提前致谢。