0

我目前正在做主题建模的事情(初学者)我正在考虑使用木槌作为一些工具来让我了解这个领域,但是,我的问题是,我想训练一个基于 1000 个文档的模型,构建模型并在新的单个文档上使用该模型来生成其潜在主题。

但是,据我阅读有关 mallet 教程的内容,它总是说这个工具或 API 在文本语料库中很有用,这意味着它用于在多个文档中查找主题。

有没有一种方法可以根据模型(或从 1000 个文档中学习/构建的推理参数)在单个文档上找到主题?

有没有其他工具可以做到这一点?

非常感谢!

4

2 回答 2

0

您可以参考示例代码 src/cc/mallet/examples/TopicModel.java,其中描述了如何聚类和推断新实例。

于 2013-07-11T10:45:46.580 回答
0

实际上,当您在目录上运行简单的 LDA 时,模型会根据来自您的语料库的一部分的“已经”训练的模型为该目录的每个文档分配主题比例。因此,主题比例以一定的概率分配给每个文档(已经按照该主题出现在该特定文档的概率进行排名)。

于 2015-10-29T23:05:05.583 回答