我正在从事一个文本分类项目,我试图将主题分类分配给国会记录中的演讲。
使用来自国会法案项目 ( http://congressionalbills.org/ ) 的主题代码,我将提及特定法案的演讲标记为属于该法案的主题。我将其用作模型的“训练集”。
我有一个“香草”朴素贝叶斯分类器工作得很好,但我一直觉得我可以通过合并有关正在发表演讲的国会议员的信息(例如,某些成员更有可能比别人谈外交政策)。
一种可能性是用说话者观察到的先前语音替换 NB 分类器中的先验(通常定义为训练集中具有给定分类的文档的比例)。
这值得追求吗?是否存在遵循相同逻辑的现有方法?我对潜在狄利克雷分配模型中的“作者主题模型”有点熟悉,但我喜欢 NB 模型的简单性。