我正在处理一个不平衡的类分类问题,其中我的不平衡比率为 0:1 = 717.26:1。我尝试了许多模型,我发现 GBM 最适合我的情况。
比我看到一篇研究论文和一篇处理不平衡阶级问题的文章。
使用 R 和插入符号处理类不平衡 - 使用 AUC 时的注意事项
在上述论文和文章中,我发现他们说的是相反的事情。
它说:“我们发现,除了 ROC 曲线下的面积外,所有性能指标都受到不平衡分布的影响;在许多情况下,情况非常显着。Alpha 和 kappa 测量值受到任一方向偏斜的影响;而 F1 分数受仅向一个方向倾斜。虽然 ROC 不受倾斜影响,但精确召回曲线表明 ROC 可能会掩盖较差的性能”,这意味着 AUC PR 也会受到影响,如图所示
而Dan Martin(作者)在文章中说,不应该只使用AUC ROC来选择最佳分类器。在处理不平衡的课堂学习时,我们也应该考虑 AUC PR。
现在我的问题是,如果我认为研究论文的结果是真实的,那么它将与上述文章结果相矛盾。
那么有人可以告诉哪个应该被认为是正确的吗?
很抱歉这个冗长的问题。
提前致谢!