我正在使用 scikit-learn Multinomial Naive Bayes 分类器进行二进制文本分类(分类器告诉我文档是否属于类别 X)。我使用平衡的数据集来训练我的模型,并使用平衡的测试集来测试它,结果非常有希望。
这个分类器需要实时运行并不断分析随机扔给它的文档。
但是,当我在生产环境中运行我的分类器时,误报的数量非常高,因此我最终得到的精度非常低。原因很简单:分类器在实时场景中遇到更多的负样本(大约 90% 的时间),这与我用于测试和训练的理想平衡数据集不对应。
有没有办法可以在训练期间模拟这个实时案例,或者有什么技巧可以使用(包括对文档进行预处理以查看它们是否适合分类器)?
我计划使用与实时情况相同比例的不平衡数据集来训练我的分类器,但我担心这可能会使朴素贝叶斯偏向负类并失去我对正类的回忆。
任何建议表示赞赏。