-1

我有一个不平衡的数据集,它有两个类(+1-1)。阳性仅占数据集的 7%。

我想使用决策树进行分类。我尝试将底片下采样为:

  1. 正片大小相同
  2. 正片大小的两倍或三倍。

对于所有这些,我得到了几乎相同的精度,但是对于第一个样本(负数与正数大小相同),正数的召回率要好得多。但我觉得我在这里遗漏了一些东西,所以这个采样有什么不好的?

4

1 回答 1

0

对占主导地位的类进行下采样是相当普遍的。

但是你需要确保解决你的实际问题。

如果你将你的班级抽样到 1:1 的比例,这可能会使某些评估看起来不错,但这仍然反映现实吗?您的分类器经过训练可以在 50% 的情况下预测为阳性,但只有 3% 是阳性的。如果“误报”花费了你很多钱,这可能是个问题。

于 2017-12-16T14:09:50.760 回答