我正在用 python 中的 sklearn 逻辑回归解决分类问题。
我的问题是一般/通用问题。我有一个包含两个类/结果(正/负或 1/0)的数据集,但该数据集非常不平衡。有约 5% 的阳性和约 95% 的阴性。
我知道有很多方法可以处理这样的不平衡问题,但还没有找到一个很好的解释来说明如何使用 sklearn 包正确实现。
到目前为止,我所做的是通过选择具有正面结果的条目和随机选择的相同数量的负面条目来建立一个平衡的训练集。然后我可以将模型训练到这个集合,但我不知道如何修改模型,然后处理原始的不平衡人口/集合。
执行此操作的具体步骤是什么?我翻遍了 sklearn 文档和示例,但没有找到好的解释。