我使用 Weka 的 Naive Bayes 进行文本分类。我的句子有两个类,“正面”和“负面”。我收集了大约 207 个积极意义的句子和 189 个消极意义的句子,以创建我的训练集。
当我用一个包含强烈否定意义的句子的测试集运行朴素贝叶斯时,比如“恨”这个词,结果的准确率相当不错,大约 88%。但是当我使用具有积极意义的句子时,例如“爱”这个词中的一个,作为测试集,准确率要差得多,大约为 56%。
我认为这种差异可能与我的训练集有关,尤其是它的“正面”句子。
你能想到任何可以解释这种差异的原因吗?或者也许有一种方法可以帮助我找出问题的根源?
非常感谢您的时间,
南蒂亚