0

我在 LingSpam 数据集上运行 SVM 分类器,并且在 WEKA 中有以下混淆矩阵:

在此处输入图像描述

如果我们考虑合法->正类和垃圾邮件->负类,那么 True Positives=2405 和 True Negatives=470。

但我对假阴性和假阳性感到困惑。如果您在此处阅读“混淆表”部分,则似乎 False Positives=11 和 False Negatives=7。但是,如果您阅读此处(请使用 Ctrl+F 并搜索“所有这些数字是什么意思?”),似乎 False Positives=7 和 False Negatives=11。

我很困惑 :(。请帮帮我!此外,WEKA 中的 IR_Precision 和 IR_Recall 是什么?是 legal_precision 和 legal_recall 还是 spam_precision 和 spam_recall?

注意:将合法电子邮件视为正类,将垃圾邮件视为负类。

4

2 回答 2

1

这取决于您将什么定义为“积极”类。“合法”没有什么特别之处,这意味着它是正类;你可以这样做。

在这里将“垃圾邮件”称为肯定类更为传统,因为它是您正在检测的不寻常属性。在那个解释中,有 470 个真阳性,依此类推。在你的解释中,有 2405 个。两者本身都没有错,但同样,将“垃圾邮件”视为阳性类可能更习惯。

关于精度和召回率的答案相同。它适用于正类,但取决于您用作正类的内容。如果您输入这个混淆矩阵,它将寻找“合法”作为正类的精确度和召回率。理想情况下,我会扭转这种情况。

于 2014-05-21T07:09:24.113 回答
0

嗯,首先,如果你仔细看一下关于垃圾邮件分类问题的研究文章,几乎所有的文章都将垃圾邮件定义为正例,将火腿定义为负例。在你的情况下,情况正好相反。因此,它有机会混淆读者。

但是,Weka 混淆矩阵完全没问题。以下是根据经典垃圾邮件分类任务的正面和负面定义:

True positives: original label spam, predicted label spam (very good)
False positives: original label ham, predicted label spam (very dangerous)
False negatives: original label spam, predicted label ham (less dangerous)
True negatives: original label hams, predicted labels ham (very good)

在您的情况下(如果您想与经典垃圾邮件分类任务中所说的进行比较),

True positives: 470
False positives: 7
False negatives: 11
True negatives: 2405

只需将混淆矩阵倒置即可以这种方式阅读它们。我认为主要的困惑来自你对积极和消极的定义。

希望有帮助。

于 2014-05-29T20:52:23.093 回答