我有一个已标记的文档语料库。我有大约 400 个标签的固定列表 - 与不同的主题相关。每个文档都被标记了一个或多个标签和一个简短的标题。(我还有一个更大的标题列表——如果文档包含非常相似的内容,我经常会重复使用它)
我想创建一个界面,根据我标记现有文档的方式,为我添加到语料库的新文档建议标签/标题(来自我现有的列表)。
我已阅读有关概率主题模型 LDA 类的信息,当您没有任何现有的标记数据时,它看起来非常适合分析文本。但我看不出有任何方法可以整合我现有的工作。
任何建议,将不胜感激。
亲切的问候
斯瓦米