我正在使用逻辑回归模型进行一些预测分析。我们有大约 25 个预测变量和 1 个二元结果 (Y/N) 变量。我正在模拟结果为“Y”的概率。
我的训练数据集中有 400,000 条记录,而评分集中有相同的数字。训练集中出现“Y”的概率为 0.1%。SAS 输出的模型的 C 统计量为 0.97,非常好。
当我在我的评分集上运行模型时,我的“阳性预测值”,即正确识别的“Y”与总“Y”的比率,小于 1,这使得我的模型毫无用处。有人可以建议我如何提高阳性预测值吗?
我正在使用逻辑回归模型进行一些预测分析。我们有大约 25 个预测变量和 1 个二元结果 (Y/N) 变量。我正在模拟结果为“Y”的概率。
我的训练数据集中有 400,000 条记录,而评分集中有相同的数字。训练集中出现“Y”的概率为 0.1%。SAS 输出的模型的 C 统计量为 0.97,非常好。
当我在我的评分集上运行模型时,我的“阳性预测值”,即正确识别的“Y”与总“Y”的比率,小于 1,这使得我的模型毫无用处。有人可以建议我如何提高阳性预测值吗?
假设您的预测值低于您希望的值,这意味着您的模型具有高方差(它在训练集中预测良好,但在验证集中预测不佳),您应该考虑一些基本选项:
增加模型的复杂性。您的模型可能对数据不够复杂。添加更多预测变量,或预测变量的组合,或多项式变量。
增加训练样例的数量。您的训练示例可能不够复杂,无法证明您的模型。一个典型的比例是 60% 训练 - 20% 验证 - 20% 测试;50%-50% 可能不够(虽然 400,000 通常就足够了,谁知道呢)。
也许您的训练示例和验证集并不是真正的随机样本。例如,如果训练集是 2011 年的数据,而验证集是 2012 年的数据,那么您的模型可能没有考虑到年复一年的变化。
由于高度偏斜的值,您的算法的召回率非常低,因此您对逻辑回归的召回率(算法的敏感率低),我想您可以为正样本的错误分类设置非常高的错误率成本,而不是这样负面例子的成本很高。希望有帮助!!!