3

我使用朴素贝叶斯模型将文档分类为正面和负面标签。对于大约 72 个文档的小型平衡数据集大小,它似乎工作正常。但是当我添加更多带有负面标签的文档时,分类器将所有内容预测为负面。

我将我的数据集分成 80% 的训练集和 20% 的测试集。添加更多带有负面标签的文档肯定会使数据集倾斜。是否是偏度使分类器将每个测试文档都预测为负数?我正在使用 Navive Bayes 模型的 TextBlob/nltk 实现。

任何想法?

4

1 回答 1

4

是的,可能是您的数据集偏向于您的分类器。如果没有非常强的信号告诉分类器选择哪个类,那么选择最流行的类(在您的情况下为负数)是有意义的。您是否尝试过绘制类分布与准确性的关系图?要尝试的另一件事是k-fold 验证,这样您就不会偶然得出有偏见的 80-20 训练-测试拆分。

于 2014-03-04T14:56:32.463 回答