6

我最近开始使用 weka,并尝试使用朴素贝叶斯将推文分类为正面或负面。所以我有一个训练集,其中包含我为其标记的推文,以及一个测试集,其中包含所有标签为“正面”的推文。当我运行朴素贝叶斯时,我得到以下结果:

正确分类实例:69 92% 错误分类实例:6 8%

然后,如果我将测试集中推文的标签更改为“否定”并再次运行朴素贝叶斯,则结果相反:

正确分类实例:6 8% 错误分类实例:69 92%

我认为正确分类的实例显示了朴素贝叶斯的准确性,并且无论测试集中推文的标签如何,它都应该是相同的。我的数据有问题还是我没有正确理解正确分类实例的含义?

非常感谢您的时间,

南蒂亚

4

2 回答 2

6

测试集上的标签应该是实际正确的分类。性能是通过要求分类器对测试集中每个实例的分类给出其最佳猜测来计算的。然后将预测的分类与实际分类进行比较以确定准确性。因此,如果你翻转你给它的“正确”值,结果也会被翻转。

于 2012-09-03T18:05:18.750 回答
1

根据您的训练集,您的实例中有 69.92% 被归类为阳性。如果测试集的标签,即正确答案,表明它们都是正面的,那么这使得 69.92% 正确。如果测试集(以及分类)是相同的,但您切换了正确答案,那么当然,正确百分比也将相反。

请记住,为了评估分类器,您需要测试集的真实标签。否则,您无法将分类器的答案与真实答案进行比较。在我看来,您可能误解了这一点。如果这是您想要的,您可以获得看不见的数据的标签,但在这种情况下,您无法评估分类器的准确性。

于 2012-09-03T18:05:36.180 回答