Find centralized, trusted content and collaborate around the technologies you use most.
Teams
Q&A for work
Connect and share knowledge within a single location that is structured and easy to search.
我目前正在做主题建模的事情(初学者)我正在考虑使用木槌作为一些工具来让我了解这个领域,但是,我的问题是,我想训练一个基于 1000 个文档的模型,构建模型并在新的单个文档上使用该模型来生成其潜在主题。
但是,据我阅读有关 mallet 教程的内容,它总是说这个工具或 API 在文本语料库中很有用,这意味着它用于在多个文档中查找主题。
有没有一种方法可以根据模型(或从 1000 个文档中学习/构建的推理参数)在单个文档上找到主题?
有没有其他工具可以做到这一点?
非常感谢!
您可以参考示例代码 src/cc/mallet/examples/TopicModel.java,其中描述了如何聚类和推断新实例。
实际上,当您在目录上运行简单的 LDA 时,模型会根据来自您的语料库的一部分的“已经”训练的模型为该目录的每个文档分配主题比例。因此,主题比例以一定的概率分配给每个文档(已经按照该主题出现在该特定文档的概率进行排名)。