我正在研究二进制分类问题。说 A 类和 B 类。但问题是 A 类和 B 类的先验分布是 90% 和 10%。所以我尝试过的大多数分类算法,它们倾向于将大多数情况分类为 A 类,虽然 0/1 准确率很高,但 B 类的类精度和召回率很糟糕。我怎样才能改变这个?
问问题
354 次
2 回答
5
有两种基本方法:
- 对较小的类进行过采样(重复向量以使比例更相等,您还可以对这些数据应用一些小噪声以获得更“有价值”的数据)
- 使用您的模型支持的一些类加权方案
特别是,看看支持向量机的确切问题
还有一件事 - 构建了一些评估措施来处理这种不成比例,特别是MCC
(马修斯相关系数)可用于评估非比例数据的模型质量。
于 2013-09-18T09:08:08.720 回答
1
这篇研究文章还定义了一些通用的类加权方案,您可以将它们作为您首选的学习算法中的训练标准。
在基于成本的类别加权中,您更新学习算法以“按原样”使用您的数据处理训练过程中的不均匀类别,而采样涉及数据级方法。
上述文章中提出的一些加权方案将两个类的准确性视为同等重要,而另一些则将少数类的准确性视为比多数类的准确性更重要。
于 2013-09-19T12:20:04.393 回答