4

我已经使用槌制作了一个平行主题模型。

我想获得每个文档的热门词。

为此,我试图获得一个词主题概率矩阵。

我将如何实现这一目标?

4

2 回答 2

8

当您使用 MALLET 构建主题时,您有一个名为--word-topic-counts-file. 当您提供此选项并指定文件时,MALLET 会在文件中的每一行写入(主题、单词、概率)值。您可以稍后用 C、Java 或 R(当然,任何语言)读取此文件来创建您想要的矩阵。

于 2014-06-17T14:03:17.643 回答
2

只是为了说明Praveen的答案。

使用--word-topic-counts-file, MALLET 将创建一个文件,其前几行如下所示:

0 伊丽莎白 19:1
1 李约瑟 19:2 17:1
2 去世 19:2
3 母亲 17:1 19:1 14:1

其中第一行表示elizabeth一词在主题 19 中出现过一次;第二行表示needham这个词与主题19关联了两次,与主题17关联了一次;等等......
虽然,这个文件没有给你明确的概率,你可以用它来计算它们。

于 2016-05-24T08:48:04.147 回答