1

我正在从事一个文本分类项目,我试图将主题分类分配给国会记录中的演讲。

使用来自国会法案项目 ( http://congressionalbills.org/ ) 的主题代码,我将提及特定法案的演讲标记为属于该法案的主题。我将其用作模型的“训练集”。

我有一个“香草”朴素贝叶斯分类器工作得很好,但我一直觉得我可以通过合并有关正在发表演讲的国会议员的信息(例如,某些成员更有可能比别人谈外交政策)。

一种可能性是用说话者观察到的先前语音替换 NB 分类器中的先验(通常定义为训练集中具有给定分类的文档的比例)。

这值得追求吗?是否存在遵循相同逻辑的现有方法?我对潜在狄利克雷分配模型中的“作者主题模型”有点熟悉,但我喜欢 NB 模型的简单性。

4

1 回答 1

0

无需修改任何内容,只需将此信息添加到您的Naive Bayes,它就可以正常工作。

正如之前在评论中提到的那样——不要改变任何先验——先验概率是P(class),这与实际特征无关。

只需在您的计算中添加与作者身份相对应的另一个特征,例如“作者:作者”并像往常一样训练朴素贝叶斯,即。计算P(class|author:AUTHOR)每个classAUTHOR在以后的分类过程中使用它。如果您当前的表示是一个词袋,那么添加一个“作者:作者”形式的“人造”词就足够了。

另一种选择是为每个作者训练独立的分类器,这将捕获特定于人的语音类型,例如 - 一个人只在谈论“自然”时使用很多词“环境”,而其他人只是喜欢添加这个词在每个演讲中“哦,在我们当地的环境中......”。独立的 NB 会捕捉到这类现象。

于 2013-08-23T05:56:49.953 回答