问题标签 [lasso-regression]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
r-caret - Lasso Logistic Regression 适用于不平衡数据?
我正在通过套索正则化逻辑回归分析来自 UCI 机器学习存储库的 Secom 数据集,但结果很糟糕。
https://archive.ics.uci.edu/ml/datasets/SECOM
特征:
- 具有 590 个数字属性的 1546 个数据样本
- 106个阳性样本(生产失败)
目标是准确预测正类,并执行特征选择。
我使用 R 中的 glmnet 包通过 10 倍交叉验证优化 lambda。但是结果很糟糕,因为模型倾向于将所有测试样本分配给一个类。
对于这个数据集,它只是错误的模型吗?
r - 相当于插入符号中的惩罚因子?
我想在使用 Lasso 时将某些系数的惩罚设置为 0。glmnet 函数为此提供了一个名为 pinch.factor 的选项。插入符号包中是否有等价物?
python - scikit-learn 的 LassoCV 的评分指标
我正在使用 scikit-learn 的LassoCV功能。在交叉验证期间,默认使用什么评分指标?
我希望交叉验证基于“均方误差回归损失”。可以将此指标与 LassoCV 一起使用吗?可以为LogisticRegressionCV指定一个评分指标,那么 LassoCV 也可以吗?
r - 为什么 LASSO 只选择拦截?
我正在使用glmnet
包做一个项目,很难解释结果。
场景如下。
有 7 个变量x1
, ..., x7
。
x3
, ... ,x7
被缩放以表示 0 和 std 1。
x3
我在, ... ,上拟合 Lasso 回归x7
。套索选择一些变量。
然后我对所有变量进行 Lasso 回归,即 , x1
..., x7
, Lasso 仅选择截距。
我不知道为什么会发生这种情况以及如何解决它。
matlab - 如何在matlab中通过cellfun应用套索回归
我有 2 组(X 和 Y)9x714
单元格数组,其中单元格内部由各种维度的矩阵和空的矩阵组成。元胞数组X
并且Y
对于矩阵维度是对称的。我想cellfun
用来应用lasso
回归。
收到的回复来自Matlab
:
“使用套索时出错(第 221 行)。参数‘X’必须是实值二维矩阵。”
单元格内的所有矩阵都是实数值。上述函数在通过指定单元格位置单独运行时起作用,例如:
注意:上面的函数是单独运行的,不使用循环。
请指教。先感谢您。
r - r packages for fused lasso with ordinal response variable?
Could anyone suggest any extant r
packages that implement fused lasso with ordered logit models?
I've checked r
packages including glmnet
, genlasso
, penalizedLDA
and orderedLasso
but none of them includes both fused penalty and generalized linear models...
r - R - 从插入符号和 glmnet 套索模型对象中提取因子预测器名称
在下面的示例中,我设置了一个具有 3 个变量的 df,predict、var1 和 var2(一个因子)。
当我在 caret 或 glmnet 中运行模型时,因子被转换为虚拟变量,例如 var2b。
我想以编程方式提取变量名并匹配原始变量名,而不是虚拟变量名——有没有办法做到这一点?
这只是一个例子,我的现实世界问题有许多不同级别的变量,因此,我想避免手动执行此操作,例如尝试将“b”作为子串。
谢谢!
r - 对二项式数据错误使用 glmnet
我导入了一些数据如下
我收到以下错误。
有什么好的解决方法?
r - 如何使用带有分类变量和连续变量的 LASSO 来预测连续变量?
我有一个数据库,有 5000 个观察值(行)和 40 个变量(列)。分类变量的数量为 25,连续变量的数量为 15。我想使用回归模型来预测使用分类和连续预测变量(变量)的连续变量。此外,我考虑使用套索算法(glmnet 包中的 glmnet())进行一种特征选择,以防止使用所有变量作为预测变量,并仅使用由套索确定的一些变量(重要变量)。
我的问题是套索如何处理分类变量?我应该将我的数据框转换为矩阵,因为 glmnet() 获取矩阵类型的数据。当我将它转换为矩阵时,所有列的类都变为字符。但如您所知,我需要一些列是分类的,而一些列是连续的。我应该如何解决这个问题?
换句话说,如何对具有一些分类变量和一些连续变量的数据进行回归模型和套索作为特征选择来预测连续变量?
我创建一个数据库作为玩具数据:
变量 a, b 是连续的,d, e 是分类的。这四个是预测变量,响应是连续的 b 列。使用这个玩具数据来帮助我解决问题。
任何一点帮助将不胜感激。
r - 为什么套索估计的所有系数都为零?
我是 R 新手,想在我的数据上实现套索,以便根据该算法估计的系数进行特征选择。我的数据库很大,有 40 个预测变量(连续和分类)。当我使用 glmnet 包应用套索回归时,该算法中每个预测变量估计的所有系数都为零,除了截距,为什么会发生这种情况?模型是否过度拟合?我该如何解决?我用于本节的代码是:
然后我想使用 cv.glmnet 函数来确定具有交叉验证的 min_lambda 并且令人难以置信的是它返回一个 6_digits 数字作为最小 lambda(lambda 和随后的 alpha 应该在零和一之间)。问题是什么,我该如何解决它?我为此使用的代码是:
我非常感谢您提前提供的任何帮助。