1

我有一个已标记的文档语料库。我有大约 400 个标签的固定列表 - 与不同的主题相关。每个文档都被标记了一个或多个标签和一个简短的标题。(我还有一个更大的标题列表——如果文档包含非常相似的内容,我经常会重复使用它)

我想创建一个界面,根据我标记现有文档的方式,为我添加到语料库的新文档建议标签/标题(来自我现有的列表)。

我已阅读有关概率主题模型 LDA 类的信息,当您没有任何现有的标记数据时,它看起来非常适合分析文本。但我看不出有任何方法可以整合我现有的工作。

任何建议,将不胜感激。

亲切的问候

斯瓦米

4

1 回答 1

0

对于标签建议,我们的经验只是使用搜索引擎,不需要主题建模。

尝试以下步骤:

  • 为所有文档的标题和摘要设置索引
  • 使用新文档的标题或摘要作为查询在索引上进行搜索,可以得到相似文档的列表。
  • 使用列表中前几个最相似的文档,我们将它们上的所有标签聚合为一个标签包
  • 按每个标签的频率对标签束进行排序,第一个最频繁的标签是最终结果

这个解决方案是可行的。

于 2013-02-25T12:30:04.277 回答