我设计并实现了一个朴素贝叶斯文本分类器(Java)。我主要使用它将推文分类为 20 类。为了确定文档属于我使用的类的概率
foreach(class)
{
Probability = (P(bag of words occurring for class) * P(class)) / P(bag of words occurring globally)
}
确定一个词袋是否真的不应该属于任何类的最佳方法是什么?我知道我可以只发送 P(类出现的词袋)的最小阈值,如果所有类都低于该阈值,则将文档归类为未分类,但是我意识到这可以防止该分类器变得敏感.
是否可以选择创建一个未分类的类并使用我认为不可分类的文档对其进行训练?
谢谢,
标记
- 编辑 - -
我只是想 - 我可以为 P(bag of wordsoccurring global)*(number of words in document) 设置一个最大阈值。这意味着任何主要由常用词组成的文档(通常是我想要过滤掉的推文),例如。“是的,我同意你的看法”。会被过滤掉。- 您对此的想法也将不胜感激。
或者也许我应该找到标准偏差,如果它很低,确定它应该是未分类的?