1

我正在研究 CV(简历)进行分类,我使用了 LDA。通过设置(N = 3),我对 CV(营销、计算机、通信)的 3 个不同概念的结果很好。现在的问题是,如何为具有财务概念(或其他概念)的新简历创建新主题(当然是通过将其添加到现有主题中)?

事实上,我的目标是每次都产生新的主题以获得新的概念。

我每天都会收到不同概念的不同简历,我怀疑选择哪种算法(HDP、On_Line LDA)对自动分类有用。

4

1 回答 1

0

LDA 或其他主题模型不是分类方法。它们应该被视为监督学习背景下的降维/预处理/同义词发现方法:与其将文档表示为分类器,不如将其表示为主题的后验。不要假设因为您的分类任务中有 3 个类,您就为 LDA 选择了 3 个主题。主题模型参数应设置为对文档进行最佳建模(通过困惑度或主题模型的其他一些质量指标来衡量,查看 David Mimno 最近的工作以了解其他可能性),以及主题概率/后验参数的向量(或任何你认为有用)然后应该被输入到监督学习方法中。

你会看到这正是 Blei 等人在原始 LDA 论文中所做的实验设置。

于 2014-01-27T11:59:10.187 回答