4

我正在尝试使用朴素贝叶斯文本分类器。我已经在代码中创建了一个词袋方法。在我的文档中,我注意到某些分类所特有的许多特征。这些特征的示例包括文档是否包含位置、日期或名称。这些都是布尔值,可以在文本分类之前确定。还有其他功能,例如第一个单词是什么等。

我了解基本的朴素贝叶斯方法。但未能找到有关将这些特征合并到分类器中的信息。

我的问题是是否可以将我上面提到的功能包含在词袋中?如果是这样,是否有这样的例子,我可以效仿。如果不是这种情况,您会推荐什么?

谢谢你

4

1 回答 1

3

在朴素贝叶斯框架内,没有什么能阻止您添加不基于词袋表示的附加功能。假设您有一个基于词袋特征的类似然 p(document|class_1) = l_1。您有理由相信一些二元特征 b_1 和 b_2 也将有助于分类(这些可以是分别包含日期和时间的文档,以使示例具体化)。

您估计概率 p(b_1 = 1 | class_1) = (# of docs in class 1 with b_1 = 1) / (#of docs in class 1)---p(b_1 = 0 | class_1) = 1 - p( b_1 = 1 | class_1)。您对第 2 类和对这两个类的特征 b_2 执行相同的操作。现在将这些特征添加到分类规则中特别简单,因为朴素贝叶斯只是假设特征独立。所以:

p( class_1 | 文档 ) \propto p(class_1) x l_1 xp(b_1|class_1) xp(b_2|class_1)

其中 l_1 的含义与以前相同(基于 BOW 特征的可能性),对于 p(b_i|class_1) 术语,您可以使用 p(b_i=1|class_1) 或 p(b_i=0|class_1) 术语,具体取决于什么b_i 的值实际上是。这可以以相同的方式扩展到非二进制特征,并且您可以继续添加您的心脏内容(尽管您应该知道您假设特征之间是独立的,并且您可能希望切换到不不要做这个假设)。

于 2012-12-20T10:23:43.727 回答