1

我有一个包含好文件和恶意文件的数据集。标记为 0 和 1。在数据集中有更多的恶意文件——比如 3000 个和 800 个好文件。尽管如此,我在逻辑回归、随机森林和 SVM 方面得到了很好的结果。我已经调整了要针对不平衡数据集进行调整的参数。召回率始终高于 0.90,准确率 0.86-0.9 AUC 分数始终在 0.87 到 0.9 左右,具体取决于算法。现在我的问题是,在现实生活中,将通过算法运行的文件大多是好的(数百万),而恶意文件将是几千。与我的数据集相反。这应该是我测试的问题吗?

为我的所有算法绘制的 ROC 曲线——测试集上的性能

4

0 回答 0