我正在通过套索正则化逻辑回归分析来自 UCI 机器学习存储库的 Secom 数据集,但结果很糟糕。
https://archive.ics.uci.edu/ml/datasets/SECOM
特征:
- 具有 590 个数字属性的 1546 个数据样本
- 106个阳性样本(生产失败)
目标是准确预测正类,并执行特征选择。
我使用 R 中的 glmnet 包通过 10 倍交叉验证优化 lambda。但是结果很糟糕,因为模型倾向于将所有测试样本分配给一个类。
对于这个数据集,它只是错误的模型吗?