我正在使用 SAS (9.2) 中的 PROC LOGISTIC 对大学申请者数据集进行建模。目标变量是“Enrolled y/n”,我正在针对 13 个变量(指标、连续和类别的混合)进行建模,包括:提交的申请数量、参加的活动数量、申请人年龄等。
我使用整个数据集的 50% 来训练模型,这为我提供了不到 15,000 个观察值的样本量(用于训练)。
当我运行 PROC LOGISTIC 时,输出报告大多数变量在 <.0001 时非常显着。
“测试全局零假设:BETA=0”统计数据还报告该模型擅长 <.0001,并且关联统计表报告高百分比 (90%+) 的预测概率是一致的。
所有这些看起来都很棒,直到我得到拟合优度的偏差统计数据。Pearson、Deviance 和 Hossmer/Lemeshow 测试也都报告 Pr>ChiSq 值 <.0001。如果我正确地解释了这一点(参考 Paul Allison),这个显着性水平意味着该模型应该以不合适为由被拒绝。
我尝试使用 STEPWISE 来减少模型,但这只会导致拒绝单个因素,并且 GOF 统计数据不受影响。
怀疑多重共线性,我尝试仅对因变量的单一效应建模,但我仍然得到类似的结果 - 参数估计 p 值的显着性很高,但 GOF 测试中的显着性值也很高......
我的模型是否存在根本性错误——或者我在这种情况下误解了 GOF 测试?请任何人都可以建议我需要调查什么?
我一直在运行的代码只是为了单一效果,但它会产生与模型相同的问题结果,包括所有因素:
/*Applicant_Factors_TRAIN: Single Factor*/
proc logistic DATA=Applicant_Factors_TRAIN;
MODEL Applicant_Enrolled(EVENT='1')= Total_campus_visits/ AGGREGATE SCALE = NONE LACKFIT RSQ;
run;
下面的输出: