我有一个不平衡的数据集,它有两个类(+1,-1)。阳性仅占数据集的 7%。
我想使用决策树进行分类。我尝试将底片下采样为:
- 正片大小相同
- 正片大小的两倍或三倍。
对于所有这些,我得到了几乎相同的精度,但是对于第一个样本(负数与正数大小相同),正数的召回率要好得多。但我觉得我在这里遗漏了一些东西,所以这个采样有什么不好的?
我有一个不平衡的数据集,它有两个类(+1,-1)。阳性仅占数据集的 7%。
我想使用决策树进行分类。我尝试将底片下采样为:
对于所有这些,我得到了几乎相同的精度,但是对于第一个样本(负数与正数大小相同),正数的召回率要好得多。但我觉得我在这里遗漏了一些东西,所以这个采样有什么不好的?