我鼓励解决下一个问题:我正在尝试对大量文本文档进行分类。
有 20 级:1 级正常,19 级 - 异常。当我使用朴素贝叶斯分类时,我得到以下结果:分类适用于 19 个类,但对于“正常”类,我得到了许多错误分类错误:“正常”类别中的几乎所有案例都被归类为其他(非正常)类别。
有我的问题:
- 我应该如何为“普通”课程选择训练集?(现在,我只适合分类为“正常”类别的文本集,比例为 1/20)。
- 可以这样指定分类器:如果属于某个类别的概率小于某个阈值,那么分类器必须
为此样本设置类别(例如正常)?
我鼓励解决下一个问题:我正在尝试对大量文本文档进行分类。
有 20 级:1 级正常,19 级 - 异常。当我使用朴素贝叶斯分类时,我得到以下结果:分类适用于 19 个类,但对于“正常”类,我得到了许多错误分类错误:“正常”类别中的几乎所有案例都被归类为其他(非正常)类别。
有我的问题:
很可能每个类的实例数量不平衡会导致问题。您需要在最终类估计上定义某种先验以规避不平衡实例的问题,并且您需要通过交叉验证微调此先验的外生参数。我猜 Dirichlet Prior 用于多项式 NB。
我不确定是否有全貌,但实际上您似乎只有 2 类“正常”和“异常”,它们的数量不平衡,因此是先验的。
为了回答您的第一个问题,在这种情况下,我会尝试对您的正常课程进行过度采样以进行训练(多次传递相同的“正常”实例以“伪造”更大的音量),看看它是否会提高您的表现。
我不明白你的第二个问题。