我正在实现用于文本类别检测的朴素贝叶斯分类器。我有 37 个类别,我的测试集的准确率约为 36%。
我想提高准确性,所以我决定按照许多来源的建议实现 37 个双向分类器(提高朴素贝叶斯分类器准确性的方法是其中之一),这些分类器将回答给定的文本:
specific_category OR everything_else
我将通过依次应用它们来确定文本的类别。
但是我的第一个分类器有问题,它总是在“specific_category”类别中失败。
我有训练数据 - 37 个类别,每个类别大小相同的 100 个文档。对于每个类别,我找到了我根据互信息标准选择的 50 个特征的列表(特征只是单词)。
为了举例,我使用两个类别“农业”和“everything_else”(农业除外)。
对于“农业”类别:
number of words in all documents of this class
(first term in denominator in http://nlp.stanford.edu/IR-book/pdf/13bayes.pdf, (13.7))
W_agriculture = 31649.
Size of vocabulary V_agriculture = 6951.
Log probability of Unknown word (UNK) P(UNK|agriculture) = -10.56
Log probability of class P(agriculture) = log(1/37) = -3.61 (we have 37 categories of same-size documents)
对于类别“everything_else”:
W_everything_else = 1030043
V_everything_else = 44221
P(UNK|everything_else) = -13.89
P(everything_else) = log(36/37) = -0.03
然后我有一个与农业无关的文本,让它主要由未知词(UNK)组成。它有 270 个单词,对于“农业”和“everything_else”这两个类别,它们大多是未知的。假设“everything_else”有 260 个单词是 UNK,其他 10 个是已知的。
然后,当我计算概率时
P(text|agriculture) = P(agriculture) + SUM(P(UNK|agriculture) for 270 times)
P(text|everything_else) = P(everything_else) + SUM(P(UNK|everything_else) for 260 times) + SUM(P(word|everything_else) for 10 times)
在最后一行中,我们将 260 个单词视为 UNK,将 10 个单词视为一个类别。
主要问题。由于 P(UNK|agriculture) >> P(everything_else) (对于 log 它更大),这 270 个术语 P(UNK|agriculture) 的影响超过了对文本中每个单词的 P(word|everything_else) 总和的影响. 因为
SUM(P(UNK|agriculture) for 270 times) = -2851.2
SUM(P(UNK|everything_else) for 260 times) = -3611.4
第一个总和要大得多,不能用 P(agriculture) 或 SUM(P(word|everything_else) for 10 words) 来纠正,因为差异很大。然后我总是在“农业”类别中失败,尽管文本不属于它。
问题是:我错过了什么吗?或者我应该如何处理大量的 UNK 单词并且它们的概率在小类别中显着更高?
UPD:尝试将“农业”类别的训练数据(仅将文档连接 36 次)扩大到文档数量相等。它对少数类别有帮助,对其他类别没有多大帮助,我怀疑由于单词数量和字典大小较少,P(UNK|specific_category) 在求和 270 次时变得更大并且超过 P(UNK|everything_else)。
因此,这种方法似乎对训练数据中的单词数量和词汇量非常敏感。如何克服这一点?也许二元组/三元组会有所帮助?