machine-learning - 二元分类：如果我最关心的类只是数据的一小部分怎么办？

Question

我正在研究二进制分类问题。说 A 类和 B 类。但问题是 A 类和 B 类的先验分布是 90% 和 10%。所以我尝试过的大多数分类算法，它们倾向于将大多数情况分类为 A 类，虽然 0/1 准确率很高，但 B 类的类精度和召回率很糟糕。我怎样才能改变这个？

score 5 · Accepted Answer

有两种基本方法：

还有一件事 - 构建了一些评估措施来处理这种不成比例，特别是MCC（马修斯相关系数）可用于评估非比例数据的模型质量。

score 1 · Accepted Answer

这篇研究文章还定义了一些通用的类加权方案，您可以将它们作为您首选的学习算法中的训练标准。

在基于成本的类别加权中，您更新学习算法以“按原样”使用您的数据处理训练过程中的不均匀类别，而采样涉及数据级方法。

上述文章中提出的一些加权方案将两个类的准确性视为同等重要，而另一些则将少数类的准确性视为比多数类的准确性更重要。

2 回答 2