machine-learning - 与 Weka 中的“混淆矩阵”混淆

Question

我在 LingSpam 数据集上运行 SVM 分类器，并且在 WEKA 中有以下混淆矩阵：

在此处输入图像描述

如果我们考虑合法->正类和垃圾邮件->负类，那么 True Positives=2405 和 True Negatives=470。

但我对假阴性和假阳性感到困惑。如果您在此处阅读“混淆表”部分，则似乎 False Positives=11 和 False Negatives=7。但是，如果您阅读此处（请使用 Ctrl+F 并搜索“所有这些数字是什么意思？”），似乎 False Positives=7 和 False Negatives=11。

我很困惑 :(。请帮帮我！此外，WEKA 中的 IR_Precision 和 IR_Recall 是什么？是 legal_precision 和 legal_recall 还是 spam_precision 和 spam_recall？

注意：将合法电子邮件视为正类，将垃圾邮件视为负类。

score 1 · Accepted Answer

这取决于您将什么定义为“积极”类。“合法”没有什么特别之处，这意味着它是正类；你可以这样做。

在这里将“垃圾邮件”称为肯定类更为传统，因为它是您正在检测的不寻常属性。在那个解释中，有 470 个真阳性，依此类推。在你的解释中，有 2405 个。两者本身都没有错，但同样，将“垃圾邮件”视为阳性类可能更习惯。

关于精度和召回率的答案相同。它适用于正类，但取决于您用作正类的内容。如果您输入这个混淆矩阵，它将寻找“合法”作为正类的精确度和召回率。理想情况下，我会扭转这种情况。

score 0 · Accepted Answer

嗯，首先，如果你仔细看一下关于垃圾邮件分类问题的研究文章，几乎所有的文章都将垃圾邮件定义为正例，将火腿定义为负例。在你的情况下，情况正好相反。因此，它有机会混淆读者。

但是，Weka 混淆矩阵完全没问题。以下是根据经典垃圾邮件分类任务的正面和负面定义：

True positives: original label spam, predicted label spam (very good)
False positives: original label ham, predicted label spam (very dangerous)
False negatives: original label spam, predicted label ham (less dangerous)
True negatives: original label hams, predicted labels ham (very good)

在您的情况下（如果您想与经典垃圾邮件分类任务中所说的进行比较），

True positives: 470
False positives: 7
False negatives: 11
True negatives: 2405

只需将混淆矩阵倒置即可以这种方式阅读它们。我认为主要的困惑来自你对积极和消极的定义。

希望有帮助。

machine-learning - 与 Weka 中的“混淆矩阵”混淆

2 回答 2

Related

Reference