在形成所有分类变量的虚拟变量后,我有 628 个预测变量。当我运行很多次传统逻辑回归迭代时,我遇到了 15 个变量,这些变量为我提供了非常好的模型,具有良好的 ROC、召回率和精度(对于某些截止值)测试数据的值,而且所有变量都很显着(在 p <=0.05)。但由于花费了很多时间,我尝试使用 lasso 在运行 10 倍交叉验证后获得最佳 lambda 值后,它给了我 50 个非零系数变量。而传统方法的 15 个变量和 lasso 的 50 个变量之间只有 5 个变量是共同的。此外,当我试图计算它的 SE 和 t-stats 时,我发现许多变量是微不足道的(低 t-stats 和高 p-value)。除此之外,ROC 的 AUC 低于传统方法。当我对作为套索结果的 50 个变量使用传统逻辑回归时,ROC 下降得更多。有人可以帮助我了解它的动态以及如何证明套索模型的系数受到惩罚(我在使用套索之前已经对所有变量进行了归一化)?
问问题
544 次