我们如何使用朴素贝叶斯解释 weka 中的分类结果?
均值、标准偏差、权重总和和精度是如何计算的?
如何计算 kappa 统计量、平均绝对误差、均方根误差等?
混淆矩阵的解释是什么?
我们如何使用朴素贝叶斯解释 weka 中的分类结果?
均值、标准偏差、权重总和和精度是如何计算的?
如何计算 kappa 统计量、平均绝对误差、均方根误差等?
混淆矩阵的解释是什么?
下面是使用 10 倍交叉验证的朴素贝叶斯分类器的一些示例输出。那里有很多信息,您应该关注的内容取决于您的应用程序。我将在下面解释一些结果,以帮助您入门。
=== Stratified cross-validation ===
=== Summary ===
Correctly Classified Instances 71 71 %
Incorrectly Classified Instances 29 29 %
Kappa statistic 0.3108
Mean absolute error 0.3333
Root mean squared error 0.4662
Relative absolute error 69.9453 %
Root relative squared error 95.5466 %
Total Number of Instances 100
=== Detailed Accuracy By Class ===
TP Rate FP Rate Precision Recall F-Measure ROC Area Class
0.967 0.692 0.686 0.967 0.803 0.709 0
0.308 0.033 0.857 0.308 0.453 0.708 1
Weighted Avg. 0.71 0.435 0.753 0.71 0.666 0.709
=== Confusion Matrix ===
a b <-- classified as
59 2 | a = 0
27 12 | b = 1
正确和错误分类的实例显示了正确和错误分类的测试实例的百分比。原始数字显示在混淆矩阵中,带有a
并b
表示类标签。这里有 100 个实例,所以百分比和原始数字相加,aa
+ bb
= 59 + 12 = 71,ab
+ ba
= 27 + 2 = 29。
正确分类实例的百分比通常称为准确度或样本准确度。作为性能估计,它有一些缺点(不是偶然纠正的,对类分布不敏感),所以你可能想看看其他一些数字。ROC 面积,或 ROC 曲线下的面积,是我的首选度量。
Kappa 是分类和真实类别之间一致性的机会校正度量。它是通过将偶然预期的一致性与观察到的一致性相除并除以最大可能一致性来计算的。大于 0 的值意味着你的分类器做得比机会好(它真的应该是!)。
错误率用于数值预测而不是分类。在数字预测中,预测不仅是对还是错,误差具有大小,这些度量反映了这一点。
希望这会让你开始。
为了详细说明 michaeltwofish 的答案,对剩余值的一些注释:
TP 率:真阳性率(正确分类为给定类别的实例)
FP 率:误报率(实例被错误地归类为给定类)
精度:真正属于一个类的实例的比例除以分类为该类的实例总数
召回率:归类为给定类的实例的比例除以该类中的实际总数(相当于 TP 率)
F-Measure:精度和召回率的组合度量,计算为 2 * Precision * Recall / (Precision + Recall)
至于 ROC 面积测量,我同意 michaeltwofish 的观点,这是 Weka 输出的最重要的值之一。“最佳”分类器的 ROC 面积值将接近 1,其中 0.5 与“随机猜测”相当(类似于 Kappa 统计量为 0)。
需要注意的是,在解释结果时需要考虑数据集的“平衡”。不成比例的大量实例属于某个类的不平衡数据集可能会导致高准确率,即使分类器可能不一定特别好。
进一步阅读:
这种解释可能有助于澄清朴素贝叶斯的含义;它假设变量的独立性。具体来说,假设我们想预测是否有人走过布鲁克林的展望公园。我们有关于他们是否
a) 住在纽约市
b) 住在一个城市
朴素贝叶斯会假设这两个变量是独立的。但很明显,如果他们住在纽约市,他们也住在城市里。这是一个愚蠢的例子,因为(希望)没有人会使用数据科学来处理这些变量,但它表明了独立性意味着什么。如果a,那么b。此外,如果不是 b,则不是 a。
存在依赖性,因此朴素贝叶斯的朴素假设不成立。
这个页面可能对新手有用。这对我有很大帮助;它穿过
我不隶属于杰森布朗利。他似乎有点销售,但这样做的好处是他保持简单,因为他的目标是初学者
对于某些算法,它给出的每个值都是“50050000”,而对于其他分类器,这些值大约是 49.7、87.4、98.2 等等。