tagging - 用于自动主题标记的 MALLET - 带有训练数据

Question

我有一个已标记的文档语料库。我有大约 400 个标签的固定列表 - 与不同的主题相关。每个文档都被标记了一个或多个标签和一个简短的标题。（我还有一个更大的标题列表——如果文档包含非常相似的内容，我经常会重复使用它）

我想创建一个界面，根据我标记现有文档的方式，为我添加到语料库的新文档建议标签/标题（来自我现有的列表）。

我已阅读有关概率主题模型 LDA 类的信息，当您没有任何现有的标记数据时，它看起来非常适合分析文本。但我看不出有任何方法可以整合我现有的工作。

任何建议，将不胜感激。

亲切的问候

斯瓦米

score 0 · Accepted Answer

对于标签建议，我们的经验只是使用搜索引擎，不需要主题建模。

尝试以下步骤：

这个解决方案是可行的。

1 回答 1