我现在有一个非常大的数据集。响应变量是二进制 1/0。不良人口规模仅占整个数据集的一小部分。良好的人口规模为 8,000,000。标记为 1 的不良人口规模仅为 7,000。
我使用了决策树,该决策树将特征作为输入,然后将个体分类为 1 或 0。
因为人口规模真的很大。R 无法有效地处理所有数据。所以我决定随机抽取一些好的样本。但我想保留所有坏样本。所以我选择了 8000 个好的样本,并包含了所有的 7000 个坏样本。因此,我有 15,000 个样本。我将它们随机分成训练和测试数据集。在训练集上训练决策树后,我将测试数据拟合到训练模型中,结果各不相同。
但是,我真的很担心这个模型现在如何适用于整个人群。虽然我比较了好样本和好总体的不同变量条件下的分布,但是好样本的分布与好总体非常一致。
因为好样本和坏样本在采样数据中的权重相等,所以“BAD”的效果在训练模型时被夸大了,我认为如果整个数据适合模型,“BAD”就不会是“BAD” ,因为坏的部分太小了。你认为这对模型来说是一个潜在的失败问题吗?你有什么建议来解决这个问题吗?