0

我正在使用 SAS (9.2) 中的 PROC LOGISTIC 对大学申请者数据集进行建模。目标变量是“Enrolled y/n”,我正在针对 13 个变量(指标、连续和类别的混合)进行建模,包括:提交的申请数量、参加的活动数量、申请人年龄等。

我使用整个数据集的 50% 来训练模型,这为我提供了不到 15,000 个观察值的样本量(用于训练)。

当我运行 PROC LOGISTIC 时,输出报告大多数变量在 <.0001 时非常显着。

“测试全局零假设:BETA=0”统计数据还报告该模型擅长 <.0001,并且关联统计表报告高百分比 (90%+) 的预测概率是一致的。

所有这些看起来都很棒,直到我得到拟合优度的偏差统计数据。Pearson、Deviance 和 Hossmer/Lemeshow 测试也都报告 Pr>ChiSq 值 <.0001。如果我正确地解释了这一点(参考 Paul Allison),这个显着性水平意味着该模型应该以不合适为由被拒绝。

我尝试使用 STEPWISE 来减少模型,但这只会导致拒绝单个因素,并且 GOF 统计数据不受影响。

怀疑多重共线性,我尝试仅对因变量的单一效应建模,但我仍然得到类似的结果 - 参数估计 p 值的显着性很高,但 GOF 测试中的显着性值也很高......

我的模型是否存在根本性错误——或者我在这种情况下误解了 GOF 测试?请任何人都可以建议我需要调查什么?

我一直在运行的代码只是为了单一效果,但它会产生与模型相同的问题结果,包括所有因素:

/*Applicant_Factors_TRAIN: Single Factor*/
proc logistic DATA=Applicant_Factors_TRAIN;
MODEL Applicant_Enrolled(EVENT='1')= Total_campus_visits/ AGGREGATE SCALE = NONE LACKFIT RSQ;
run;

下面的输出:

在此处输入图像描述

在此处输入图像描述

在此处输入图像描述

在此处输入图像描述

在此处输入图像描述

4

2 回答 2

0

I 模型的当前状态

  1. 您的模型具有非常高的关联百分比(关联百分比 = 32.8%),并且只有 56.7% 的一致性。所以,你的模型的准确性不好。'c' 值为 0.729 或 72.9% 并不能真实反映您的模型。'c' 值或 AUC = (0.567+(0.328/2))。这意味着您的 c 值受到高百分比关系的影响。

  2. 高 % Ties 很多数据点导致预测处于边界,即既不是 0 也不是 1。

II 所以,你需要做什么: -

您需要减少 % tie 并尝试实现高一致性、高精度和可接受的 GOF 参数

III 你如何改进你的模型

  1. 我经常做的一件事是使用BOOTSTRAPPING. 最简单、最稳健的算法之一,可帮助我们使用多个样本获取最相关的变量,从而有助于提高模型的准确性和稳定性

  2. 如果BOOTSTRAPPING也失败了,那就试试Machine Learning techniques随机森林、GBM等。随机森林被认为是最鲁棒的分类算法之一

  3. 如果个别算法也失败了,那么试试stacking. 简单地结合了多种分类算法的预测能力。注意:- 当上述所有选项都已用尽时,请使用此选项。

希望这可以帮助:-)

于 2017-04-20T15:14:31.703 回答
0

我从那以后读到,在处理大型数据集时,拟合优度测试本质上会出现问题,因此,根据文献,我选择忽略它们,转而采用考虑 p 值、零假设检验的交叉验证方法, ROC AUC c 统计量、置信区间和 Max-rescaled R-Square 统计量 (Johnson and Wichern 1992) (Shmueli, Lin and Lucas Jr. 2013) (Li 2013)

于 2017-04-26T20:10:58.153 回答